基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
当前,Web已经成为人们获取信息的主要渠道之一.然而,用于表达Web页面信息的HTML语言存在着与生俱来的缺点.HTML的"标记"只是告诉浏览器软件如何显示所定义的信息,却不包含任何语义.因此由HTML语言所表述的Web页面经过浏览器分析后只适合人们浏览,不适合作为一种数据交换的方式由机器处理.该文以文档对象模型DOM为基础,把所要提取的信息在DOM层次结构中的路径作为信息抽取的"坐标",并以这个基本原理为基础设计了一种归纳学习算法来半自动地生成提取规则,然后根据提取规则生成Java类.生成的Java类可以作为Web数据源包装器组成的重要构件.
推荐文章
基于DOM的中文人物WEB信息提取
信息提取
文档对象模型
影响因子
中文人物
基于DOM的Web信息抽取
DOM
包装器
抽取规则
信息抽取
一种基于DOM的Web信息提取方法
Web信息提取
DOM
XPath
XSLT
基于DOM的网页结构判断
基于HTML树和模板的文献信息提取方法研究
网页信息提取
文档对象模型树
模板
文献信息搜集
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于DOM的Web信息提取
来源期刊 计算机学报 学科 工学
关键词 归纳学习 文档对象模型 路径表达式 XML
年,卷(期) 2002,(5) 所属期刊栏目 研究论文与技术报告
研究方向 页码范围 526-533
页数 8页 分类号 TP311
字数 6448字 语种 中文
DOI 10.3321/j.issn:0254-4164.2002.05.012
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 顾毓清 中国科学院软件研究所 28 686 11.0 26.0
2 李效东 中国科学院软件研究所 4 373 3.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (1)
节点文献
引证文献  (331)
同被引文献  (84)
二级引证文献  (938)
1982(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2003(6)
  • 引证文献(6)
  • 二级引证文献(0)
2004(17)
  • 引证文献(13)
  • 二级引证文献(4)
2005(22)
  • 引证文献(15)
  • 二级引证文献(7)
2006(61)
  • 引证文献(28)
  • 二级引证文献(33)
2007(96)
  • 引证文献(40)
  • 二级引证文献(56)
2008(116)
  • 引证文献(33)
  • 二级引证文献(83)
2009(122)
  • 引证文献(40)
  • 二级引证文献(82)
2010(139)
  • 引证文献(41)
  • 二级引证文献(98)
2011(130)
  • 引证文献(27)
  • 二级引证文献(103)
2012(109)
  • 引证文献(22)
  • 二级引证文献(87)
2013(125)
  • 引证文献(16)
  • 二级引证文献(109)
2014(89)
  • 引证文献(23)
  • 二级引证文献(66)
2015(78)
  • 引证文献(8)
  • 二级引证文献(70)
2016(53)
  • 引证文献(9)
  • 二级引证文献(44)
2017(44)
  • 引证文献(4)
  • 二级引证文献(40)
2018(41)
  • 引证文献(3)
  • 二级引证文献(38)
2019(18)
  • 引证文献(3)
  • 二级引证文献(15)
2020(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
归纳学习
文档对象模型
路径表达式
XML
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机学报
月刊
0254-4164
11-1826/TP
大16开
中国科学院计算技术研究所(北京2704信箱)
2-833
1978
chi
出版文献量(篇)
5154
总下载数(次)
49
论文1v1指导