基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
Web上的信息很多存储在HTML 页面上,传统的网页数据抽取方法是使用包装器(Wrapper)来抽取网页中感兴趣的数据.包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作.避开了使用Wrapper,针对新闻类网页的结构特点,从视觉角度对网页页面空间的构成进行了噪声与信息实体的划分与判断.讨论了一种根据新闻类网页层次结构和各层节点统计信息进行新闻主体提取的方法.改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,并对其节点添加了统计信息,利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反向降噪抽取新闻类网页得到结构化数据的方法.实验结果表明,用这种方法进行新闻类网页主体信息提取的有效性.
推荐文章
基于HTML树和模板的文献信息提取方法研究
网页信息提取
文档对象模型树
模板
文献信息搜集
基于标记窗的网页正文信息提取方法
标记窗
提取
文档对象模型
基于特征相关学习的网页信息提取方法
信息提取
特征学习
过滤
网页信息
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于HTML结构特征的网页信息提取
来源期刊 辽宁石油化工大学学报 学科 工学
关键词 信息提取 DOM LA-DOM HTML解析 噪声标记
年,卷(期) 2009,(3) 所属期刊栏目 计算机与自动化
研究方向 页码范围 65-69
页数 5页 分类号 TP301
字数 5467字 语种 中文
DOI 10.3969/j.issn.1672-6952.2009.03.019
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王立志 天津大学管理学院 7 49 4.0 7.0
2 胡瑜 天津大学计算机科学与技术学院 3 119 3.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (12)
共引文献  (94)
参考文献  (5)
节点文献
引证文献  (29)
同被引文献  (19)
二级引证文献  (4)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(5)
  • 参考文献(0)
  • 二级参考文献(5)
2004(2)
  • 参考文献(1)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(4)
  • 参考文献(4)
  • 二级参考文献(0)
2009(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2010(2)
  • 引证文献(2)
  • 二级引证文献(0)
2011(5)
  • 引证文献(5)
  • 二级引证文献(0)
2012(6)
  • 引证文献(6)
  • 二级引证文献(0)
2013(6)
  • 引证文献(5)
  • 二级引证文献(1)
2014(4)
  • 引证文献(3)
  • 二级引证文献(1)
2015(4)
  • 引证文献(4)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(2)
  • 引证文献(2)
  • 二级引证文献(0)
2019(2)
  • 引证文献(1)
  • 二级引证文献(1)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
信息提取
DOM
LA-DOM
HTML解析
噪声标记
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
辽宁石油化工大学学报
双月刊
1672-6952
21-1504/TE
大16开
辽宁省抚顺市望花区丹东路西段1号
8-257
1981
chi
出版文献量(篇)
2263
总下载数(次)
3
总被引数(次)
12790
论文1v1指导