国家科技成果网
热门搜索:  激光   高分子   石油   并网   纳米   太阳能光伏
扫描二维码关注国科网

国家科技成果网 首页 成果 查看内容

日语文本语料库开发

2014年 应用技术
  • 成果简介
  该项目为横向合作项目。
  该项目开发了一套网络文本语料采集整理工具包,并构建了一个大数据量多领域的日语文本语料库,用于语言模型训练。具体成果包括:
  1.开发了一套网络文本语料采集整理工具包:主要包括适合日文网站的爬虫程序、网页解析程序、去重工具、断句工具、文本正则化工具。
  2.构建了一个大数据量多领域的日语文本语料库:构建的日语文本语料库,其规模为...
相关成果

标签云

相关机构

Copyright 2001-2020 All Rights Reserved© 国科网 版权所有
国家科技成果信息服务平台 主管单位:科学技术部火炬高技术产业开发中心
京ICP备09035943号-33 京公网安备110401400097
在线客服系统