基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
网页正文信息的正确提取与分段,对文本信息挖掘等具有重要的意义.本文提出并实现一种从Web页面获取正文信息并能够正确分段的方法.该方法首先利用网页布局标签< table>和<div>构建一个DOM结构树,然后利用DOM结构树所反映出的布局标签的嵌套关系,对内容块进行取舍,提取出正确的正文信息,最后利用对一些特殊标签的处理,实现正文信息的分段.实验表明,该方法易实现、效率高,能自动准确地提取正文信息并分段.
推荐文章
基于标记窗的网页正文信息提取方法
标记窗
提取
文档对象模型
基于正文结构和长句提取的网页去重算法
网页去重
正文结构树
长句提取
层次指纹
基于DOM树结构的Blog网页自动识别
博客网页
文档对象模型结构分析
特征发现
基于布局相似性的网页正文内容提取研究
布局相似性
网页正文提取
信息检索
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于DOM结构树的网页正文信息分段方法
来源期刊 计算机与现代化 学科 工学
关键词 语义标记 布局标签 分段 噪音
年,卷(期) 2013,(10) 所属期刊栏目 网络与通信
研究方向 页码范围 229-232
页数 4页 分类号 TP393
字数 4343字 语种 中文
DOI 10.3969/j.issn.1006-2475.2013.10.056
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 汤进 安徽大学计算机科学与技术学院 83 407 11.0 15.0
3 罗斌 安徽大学计算机科学与技术学院 181 1213 16.0 25.0
9 周建 安徽大学计算机科学与技术学院 2 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (38)
共引文献  (168)
参考文献  (10)
节点文献
引证文献  (2)
同被引文献  (13)
二级引证文献  (3)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(4)
  • 参考文献(0)
  • 二级参考文献(4)
2001(4)
  • 参考文献(0)
  • 二级参考文献(4)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(9)
  • 参考文献(1)
  • 二级参考文献(8)
2005(2)
  • 参考文献(1)
  • 二级参考文献(1)
2006(3)
  • 参考文献(0)
  • 二级参考文献(3)
2007(8)
  • 参考文献(1)
  • 二级参考文献(7)
2008(4)
  • 参考文献(1)
  • 二级参考文献(3)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(6)
  • 参考文献(2)
  • 二级参考文献(4)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(2)
  • 参考文献(2)
  • 二级参考文献(0)
2013(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(2)
  • 引证文献(0)
  • 二级引证文献(2)
2019(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
语义标记
布局标签
分段
噪音
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机与现代化
月刊
1006-2475
36-1137/TP
大16开
南昌市井冈山大道1416号
44-121
1985
chi
出版文献量(篇)
9036
总下载数(次)
25
总被引数(次)
56782
论文1v1指导