国家科技成果网
热门搜索:  激光   高分子   石油   并网   纳米   太阳能光伏
扫描二维码关注国科网

国家科技成果网 首页 成果 查看内容

基于HTML特征的文本内容提取方法

2006年 应用技术
  • 成果简介
  本发明涉及一种基于HTML特征的文本内容提取方法,该方法实现的步骤包括:
  1)使用标签把输入的HTML网页进行分解成多个模块;
  2)如果1)中分解的模块还能继续再分解而且没有出现Table或Div标签混杂的情况,那么再把它送到步骤1)继续分解;
  3)把输入的模块根据在布局中的不同位置给与不同位置得分;
  4)计算每个模块的链接文字长...
相关成果

标签云

相关机构

Copyright 2001-2020 All Rights Reserved© 国科网 版权所有
国家科技成果信息服务平台 主管单位:科学技术部火炬高技术产业开发中心
京ICP备09035943号-33 京公网安备110401400097
在线客服系统