首页成果登记

登录注册找回密码

国家科技成果网

机构

热门搜索： 激光高分子石油并网纳米太阳能光伏

扫描二维码关注国科网

成果
专家
机构

登记排行政策对接转化专栏

农业化工

农学林业畜牧化工环境纺织

生物医药

细胞遗传微生物学基础医学药学

能源采矿

能源石油原子能矿业冶金金属

建筑水利

建筑水利电工自动化工程基础

交通运输

铁路公路航空航天机械电子

自然社科

数学物理经济文体教育体育

农林牧渔

农业基础科学农业工程农学植物保护农作物园艺林业畜牧、动物医学、狩猎、蚕、蜂水产、渔业

环境科学

环境科学基础理论社会与环境环境保护管理灾害及其防治环境污染及其防治废物处理与综合利用环境质量评价与环境监测安全科学

轻纺科学

纺织、染整食品制盐烟草皮革木材加工、家具制造造纸印刷五金制品工艺美术制品服装、制鞋生活服务技术其他轻工业、手工业

生物科学

普通生物学细胞生物学遗传学生理学生物化学生物物理学分子生物学生物工程学环境生物学古生物学微生物学植物学动物学昆虫学人类学

医药卫生

预防医学、卫生学中国医学基础医学临床医学内科学外科学妇产科学儿科学肿瘤学神经病学与精神病学皮肤病学与性病学耳鼻咽喉科学眼科学口腔科学外国民族医学特种医学药学

能源动力

热力工程、热机蒸汽动力工程热工量测和热工自动控制内燃机特殊热能及其机械生物能及其利用水能、水力机械能、风力机械氢能及其利用

石油天然气

石油、天然气地质与勘探钻井工程油气田开发与开采油气田建设工程海上油气田勘探与开发石油、天然气加工工业石油、天然气储存与运输石油机械设备与自动化

原子能

基础理论核燃料及其生产核反应堆工程各种核反应堆、核电厂加速器受控热核反应辐射防护粒子探测技术、辐射探测技术核爆炸放射性同位素的生产与制备辐射源放射性物质的包装、运输和贮存放射性废物管理及综合利用原子能技术的应用

矿业工程

矿山地质与测量矿山设计与建设矿山压力与支护矿山机械矿山运输与设备矿山电工矿山安全矿山开采选矿

冶金工程

冶金技术冶金机械、冶金生产自动化炼铁铁合金冶炼炼钢其他黑色金属冶炼有色金属冶炼

金属工艺

金属学与热处理铸造金属压力加工焊接、金属切割金属切削加工及机床公差与技术测量钳工工艺与装配工艺

建筑科学

建筑基础科学建筑勘测建筑设计建筑结构土力学、地基基础工程建筑材料建筑施工机械和设备建筑施工房屋建筑设备地下建筑高层建筑区域规划、城乡规划市政工程

水利工程

水利工程基础科学水资源调查与水利规划水工勘测、水工设计水工结构水工材料水利工程施工

电工技术

电工基础理论电工材料电机变压器、变流器电器发电、发电厂输配电工程、电力网高电压技术独立电源技术电气化、电能应用电气测量技术及仪器

自动化

自动化基础理论自动化技术及设备计算技术、计算机技术射流技术遥感技术远动技术

工程基础

工程基础科学工程设计与测绘工程材料学工业通用技术与设备声学工程制冷工程真空技术摄影技术计量学

综合运输

综合运输体制与结构城市交通运输乡村交通运输长途运输工商业运输集装箱运输管道运输索道运输

铁路运输

铁路线路工程电气化铁路特种铁路铁路桥涵工程机车工程车辆工程铁路通信、信号铁路运输管理工程

公路运输

道路工程桥涵工程隧道工程汽车工程其他道路运输工具交通工程与公路运输技术管

水路运输

航道工程通航建筑物与助航设备港口工程船舶工程水路运输技术管理

航空航天

航空、航天技术的研究与探索航空航天（宇宙航行）

机械仪表

机械、仪表工业经济机械学机械设计、计算与制图机械零件及传动装置机械制造用材料机械制造工艺机械运行与维修机械工厂起重机械与运输机械泵气体压缩与输送机械专用机械与设备仪器、仪表

电子通信

真空电子技术光电子技术、激光技术半导体技术微电子学、集成电路（IC）术电子元件、组件基本电子电路无线电设备、电信设备通信无线通信广播电视雷达无线电导航电子对抗无线电、电信测量技术无线电电子学的应用

数理化学

数学力学物理学化学晶体学

天文地球

天文学测绘学地球物理学大气科学地质学海洋学自然地理学

经济金融

经济学世界各国经济概况、经济史、经济地理经济计划与管理农业经济工业经济信息产业经济交通运输经济旅游经济邮电经济贸易经济财政、金融

文体科教

文化理论世界各国文化与文化事业信息与知识传播科学、科学研究教育体育

基础科学

地球科学生物学数学力学物理学化学

工程科技

工程基础测绘科学材料科学矿山工程冶金工程机械工程电气工程能源科学电子通信计算机化学工程纺织科学食品科学土木建筑水利工程交通运输环境科学安全科学

农业科技

农学林学水产学畜牧

医药卫生

基础医学临床医学预防医学中医中药药学

人文社科

管理学经济学教育学法学社会学图书情报

学历

博士硕士本科其他

职称

院士正高副高其他

单位

科研机构大专院校企业其他医疗机构

地区

北京天津河北山西内蒙古辽宁吉林黑龙江山东江苏安徽浙江福建上海湖北湖南河南江西广东广西海南四川云南贵州西藏重庆宁夏新疆青海陕西甘肃

华北

北京天津河北山西内蒙古

华东

山东江苏安徽浙江福建上海

东北

辽宁吉林黑龙江

西南

四川云南贵州西藏重庆

西北

宁夏新疆青海陕西甘肃

华中华南

湖北湖南河南广东广西

华中

湖北湖南河南江西

华南

广东广西海南

国家科技成果网 › 首页 ›成果 › 查看内容

基于词性分类统计的重复网页和近似网页的识别方法

2016年

应用技术

成熟应用阶段

成果简介

　　本发明公开了一种基于词性分类统计的重复网页和近似网页的识别方法，包括以下步骤：从网页文本中提取正文；切词；分类；统计词频；提取高频词；将高频词在词级倒排索引中查询，直到查询成功，记录下查询出来的对应文本编号，若查询不成功，则表示当前词性类别的集合为空；统计出现次数最多的文本编号及其次数；统计集合中不为空的集合个数；判断频率最高的文本次数是否大于或等于1，如果不是，则将高频词添加至词级倒排索引，...

相关成果

标签云

相关机构

关于国科网我们的资源我们的服务免责声明常见问题软件下载成果登记联系我们

Copyright 2001-2020 All Rights Reserved© 国科网版权所有
国家科技成果信息服务平台主管单位：科学技术部火炬高技术产业开发中心
京ICP备09035943号-33 京公网安备110401400097

在线客服系统