原文服务方: 河北农业大学学报       
摘要:
为解决因Web信息量巨大且具有动态性、不规则性,Web信息查询和Web信息集成存在很大困难,研究了对HTML格式的 Web文档的信息抽取,提出了一种基于DOM的Web信息抽取方法.该方法通过附加语义、样本学习生成基于DOM路径的抽取规则,利用遍历DOM树实现信息抽取.本方法可用于Web查询,也可用于信息集成系统中包装器的构造.
推荐文章
Web信息抽取技术综述
Web信息抽取
网页噪声
URL聚类
DSE算法
RoadRunner系统
MDR
视觉特征
模板
基于DOM的WEB主题信息抽取
DOM
信息提取
分块
HTML
基于DOM的半结构化网页信息抽取算法
DOM
信忠抽取
半结构化
信息集成
基于扩展DOM树的Web页面信息抽取
DOM树
信息抽取
包装器
半结构化
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于DOM的Web信息抽取
来源期刊 河北农业大学学报 学科
关键词 DOM 包装器 抽取规则 信息抽取
年,卷(期) 2005,(3) 所属期刊栏目
研究方向 页码范围 90-93
页数 4页 分类号 TP391.1
字数 语种 中文
DOI 10.3969/j.issn.1000-1573.2005.03.024
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 杨文柱 河北大学数学与计算机学院 32 570 13.0 23.0
2 张鹏 9 48 2.0 6.0
3 崔继馨 5 38 1.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (1)
节点文献
引证文献  (36)
同被引文献  (32)
二级引证文献  (239)
1992(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2005(1)
  • 引证文献(1)
  • 二级引证文献(0)
2006(3)
  • 引证文献(3)
  • 二级引证文献(0)
2007(7)
  • 引证文献(4)
  • 二级引证文献(3)
2008(10)
  • 引证文献(1)
  • 二级引证文献(9)
2009(14)
  • 引证文献(3)
  • 二级引证文献(11)
2010(31)
  • 引证文献(10)
  • 二级引证文献(21)
2011(20)
  • 引证文献(7)
  • 二级引证文献(13)
2012(21)
  • 引证文献(0)
  • 二级引证文献(21)
2013(27)
  • 引证文献(2)
  • 二级引证文献(25)
2014(32)
  • 引证文献(2)
  • 二级引证文献(30)
2015(32)
  • 引证文献(1)
  • 二级引证文献(31)
2016(19)
  • 引证文献(1)
  • 二级引证文献(18)
2017(20)
  • 引证文献(1)
  • 二级引证文献(19)
2018(16)
  • 引证文献(0)
  • 二级引证文献(16)
2019(15)
  • 引证文献(0)
  • 二级引证文献(15)
2020(7)
  • 引证文献(0)
  • 二级引证文献(7)
研究主题发展历程
节点文献
DOM
包装器
抽取规则
信息抽取
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
河北农业大学学报
双月刊
1000-1573
13-1076/S
大16开
1959-01-01
chi
出版文献量(篇)
3463
总下载数(次)
0
总被引数(次)
35752
论文1v1指导