基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
提出了基于表格结构及列表结构的Web页面信息自主抽取的方法.可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够较好地适应网页信息的动态变化,实现信息的自动抽取.对列表结构信息源信息,通过对DOM树结构的分析,动态获得信息块在DOM层次结构中的路径,根据信息对象基本的抽取知识,获得信息对象值.采用自学习的方法以适应网页信息的动态变化.
推荐文章
基于DOM的Web信息抽取
DOM
包装器
抽取规则
信息抽取
Web信息抽取技术综述
Web信息抽取
网页噪声
URL聚类
DSE算法
RoadRunner系统
MDR
视觉特征
模板
基于XML的WEB信息抽取模型设计
XML
信息抽取
web
规则
信息集成
多信息块Web页面的信息抽取
Web
信息抽取
包装器
抽取规则
信息集成
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Web信息的自主抽取方法
来源期刊 计算机工程与应用 学科 工学
关键词 Web 半结构化数据 信息抽取 Wrapper
年,卷(期) 2005,(14) 所属期刊栏目 数据库与信息处理
研究方向 页码范围 185-189,198
页数 6页 分类号 TP311
字数 5873字 语种 中文
DOI 10.3321/j.issn:1002-8331.2005.14.057
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 侯锟 长春工业大学计算机科学与工程学院 2 43 2.0 2.0
2 许建潮 长春工业大学计算机科学与工程学院 13 188 8.0 13.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (12)
共引文献  (114)
参考文献  (6)
节点文献
引证文献  (41)
同被引文献  (27)
二级引证文献  (161)
1982(1)
  • 参考文献(0)
  • 二级参考文献(1)
1987(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(3)
  • 参考文献(0)
  • 二级参考文献(3)
2000(4)
  • 参考文献(1)
  • 二级参考文献(3)
2001(4)
  • 参考文献(3)
  • 二级参考文献(1)
2002(3)
  • 参考文献(2)
  • 二级参考文献(1)
2005(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2006(6)
  • 引证文献(6)
  • 二级引证文献(0)
2007(14)
  • 引证文献(7)
  • 二级引证文献(7)
2008(19)
  • 引证文献(9)
  • 二级引证文献(10)
2009(16)
  • 引证文献(7)
  • 二级引证文献(9)
2010(29)
  • 引证文献(5)
  • 二级引证文献(24)
2011(35)
  • 引证文献(5)
  • 二级引证文献(30)
2012(17)
  • 引证文献(0)
  • 二级引证文献(17)
2013(19)
  • 引证文献(1)
  • 二级引证文献(18)
2014(10)
  • 引证文献(0)
  • 二级引证文献(10)
2015(13)
  • 引证文献(1)
  • 二级引证文献(12)
2016(9)
  • 引证文献(0)
  • 二级引证文献(9)
2017(7)
  • 引证文献(0)
  • 二级引证文献(7)
2018(7)
  • 引证文献(0)
  • 二级引证文献(7)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
Web
半结构化数据
信息抽取
Wrapper
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与应用
半月刊
1002-8331
11-2127/TP
大16开
北京619信箱26分箱
82-605
1964
chi
出版文献量(篇)
39068
总下载数(次)
102
总被引数(次)
390217
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导