国家科技成果网
热门搜索:  激光   高分子   石油   并网   纳米   太阳能光伏
扫描二维码关注国科网

国家科技成果网 首页 成果 查看内容

中文文本库开发

2014年 应用技术
  • 成果简介
  该项目为横向合作项目。
  该项目建立了一个通用的多语种数据采集、清洗平台,基于该平台获取了100G以上的中文文本数据。在数据采集阶段,为适应大规模采集的需要,所构建的采集平台包括语言材料的适用性判定、文本数据粗提取、语料去重、数据存储等阶段,主要研究内容包括:
  1.由于要考虑包括中文的不同编码,并且存在其他语言混杂出现的情况,因此,需要进行HTML语言编码分析以便...
相关成果

标签云

相关机构

Copyright 2001-2020 All Rights Reserved© 国科网 版权所有
国家科技成果信息服务平台 主管单位:科学技术部火炬高技术产业开发中心
京ICP备09035943号-33 京公网安备110401400097
在线客服系统