国家科技成果网
热门搜索:  激光   高分子   石油   并网   纳米   太阳能光伏
扫描二维码关注国科网

国家科技成果网 首页 成果 查看内容

基于信息抽取技术的搜索引擎

2004年 应用技术
  • 成果简介
该搜索引擎利用机器学习的方法,对含有同类信息且布局基本一致的HTML页面样本集进行学习,从而得出对此类HTML页面进行信息抽取的规则。应用这些规则,结合一个特定领域的搜索引擎,对网络上的相关信息进行大量的获取,并从半自由的HTML文本中获取结构化的信息。通过训练和学习,调整规则数目和抽象程度,使其满足精度要求,然后基于学习提炼后的规则集对样本集以外的文本进行信息提取。对用搜索引擎获取的特定内容的页...
相关成果

标签云

相关机构

Copyright 2001-2020 All Rights Reserved© 国科网 版权所有
国家科技成果信息服务平台 主管单位:科学技术部火炬高技术产业开发中心
京ICP备09035943号-33 京公网安备110401400097
在线客服系统