国家科技成果网
热门搜索:  激光   高分子   石油   并网   纳米   太阳能光伏
扫描二维码关注国科网

国家科技成果网 首页 成果 查看内容

基于词性分类统计的重复网页和近似网页的识别方法

2016年 应用技术  成熟应用阶段
  • 成果简介
  本发明公开了一种基于词性分类统计的重复网页和近似网页的识别方法,包括以下步骤:从网页文本中提取正文;切词;分类;统计词频;提取高频词;将高频词在词级倒排索引中查询,直到查询成功,记录下查询出来的对应文本编号,若查询不成功,则表示当前词性类别的集合为空;统计出现次数最多的文本编号及其次数;统计集合中不为空的集合个数;判断频率最高的文本次数是否大于或等于1,如果不是,则将高频词添加至词级倒排索引,...
相关成果

标签云

相关机构

Copyright 2001-2020 All Rights Reserved© 国科网 版权所有
国家科技成果信息服务平台 主管单位:科学技术部火炬高技术产业开发中心
京ICP备09035943号-33 京公网安备110401400097
在线客服系统