原文服务方: 计算机应用研究       
摘要:
对于组建一个面向Web的信息系统来说,去除掉脚本、广告链接以及导航链接等无用数据,将提高信息存储和检索的效率;同时,基于语义对Web文档进行合并和分割也会有助于信息的管理,这些都是Web文档清洗系统的任务.在Web文档清洗中,无论是脱机的规则学习还是联机的文档清洗,都需要建立在对Web文档的结构和内容进行分析的基础之上.从HTML解析的一般概念入手,结合Web文档清洗系统的需求,描述了一个自主开发的HTML解析器的结构,并对其组成部分:词典、词法分析器和语法分析器的设计作了详细的讨论.
推荐文章
嵌入式HTML文档解析器的设计与实现
嵌入式
HTML文档
解析器
屏幕适配探测
手持阅读设备
一种扩展置标语言解析器的设计与实现
扩展置标语言
解析器
文档对象模型
基于XML的简单应用编程接口
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Web文档清洗系统中HTML解析器的开发
来源期刊 计算机应用研究 学科
关键词 HTML解析器 词法器 递归下降 文档清洗
年,卷(期) 2002,(2) 所属期刊栏目 网络技术及应用
研究方向 页码范围 54-57
页数 4页 分类号 TP391|TP393
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2002.02.017
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王继成 南京大学计算机科学与技术系 25 2415 18.0 25.0
5 武港山 南京大学计算机科学与技术系 66 1172 20.0 31.0
9 王强 南京大学计算机科学与技术系 106 816 13.0 26.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (30)
同被引文献  (16)
二级引证文献  (101)
2002(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2002(1)
  • 引证文献(1)
  • 二级引证文献(0)
2003(4)
  • 引证文献(3)
  • 二级引证文献(1)
2004(3)
  • 引证文献(2)
  • 二级引证文献(1)
2005(8)
  • 引证文献(3)
  • 二级引证文献(5)
2006(8)
  • 引证文献(3)
  • 二级引证文献(5)
2007(10)
  • 引证文献(6)
  • 二级引证文献(4)
2008(9)
  • 引证文献(4)
  • 二级引证文献(5)
2009(9)
  • 引证文献(3)
  • 二级引证文献(6)
2010(8)
  • 引证文献(2)
  • 二级引证文献(6)
2011(14)
  • 引证文献(2)
  • 二级引证文献(12)
2012(7)
  • 引证文献(0)
  • 二级引证文献(7)
2013(11)
  • 引证文献(0)
  • 二级引证文献(11)
2014(5)
  • 引证文献(0)
  • 二级引证文献(5)
2015(8)
  • 引证文献(0)
  • 二级引证文献(8)
2016(4)
  • 引证文献(0)
  • 二级引证文献(4)
2017(7)
  • 引证文献(0)
  • 二级引证文献(7)
2018(9)
  • 引证文献(1)
  • 二级引证文献(8)
2019(3)
  • 引证文献(0)
  • 二级引证文献(3)
2020(3)
  • 引证文献(0)
  • 二级引证文献(3)
研究主题发展历程
节点文献
HTML解析器
词法器
递归下降
文档清洗
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导