国家科技成果网
热门搜索:  激光   高分子   石油   并网   纳米   太阳能光伏
扫描二维码关注国科网

国家科技成果网 首页 成果 查看内容

基于数据抓取技术的贵州省涉农信息共享研究

2013年 应用技术  初期阶段
  • 成果简介
开发网页数据抓取系统,根据网站网页结构制定专有的网页信息抽取程序,精确抽取网页文本元素,例如标题、作者、时间、文本主体内容;自动识别并提取出网页标题及主体内容文本;网络文本去重,包括URL去重及内容层次去重,保持网络文本数据集的纯净性和低冗余;集合信息资源管理及信息组织等学科知识及技术,对数据进行预处理。数据预处理包含基于信息标准对数据进行结构化处理,并对于一词多形,一词多意、非正式词语等...
相关成果

标签云

相关机构

Copyright 2001-2020 All Rights Reserved© 国科网 版权所有
国家科技成果信息服务平台 主管单位:科学技术部火炬高技术产业开发中心
京ICP备09035943号-33 京公网安备110401400097
在线客服系统