基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
网页标题的正确抽取,在Web文本信息抽取领域有着重大意义。本文提出一种网页标题实时抽取方法。首先通过对目录型网页进行实时解析,接着采用基于超链接遍历的方法,并利用标题与发布时间的对应关系,最终获取对应目录型网页的URL及锚文本。若获得锚文本不是网页正文的标题,则获取主题型网页的HTML源码并构建网页DOM树。在此基础上,结合网页标题的视觉特点,深度优先遍历DOM树,正确提取网页正文标题。实验结果表明,本文提出的Web网页标题实时抽取方法,具有实现简单,准确率高等优点。
推荐文章
基于DOM的半结构化网页信息抽取算法
DOM
信忠抽取
半结构化
信息集成
基于超链接和内容相关度的综合爬行策略
聚焦爬行
超链接
向量空间模型
内容相关度
基于DOM树结构的Blog网页自动识别
博客网页
文档对象模型结构分析
特征发现
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于超链接和 DOM 结构树的网页标题实时抽取方法
来源期刊 计算机与现代化 学科 工学
关键词 超链接 网页标题 发布时间 实时 信息抽取
年,卷(期) 2015,(8) 所属期刊栏目 算法设计与分析
研究方向 页码范围 84-88
页数 5页 分类号 TP391
字数 4641字 语种 中文
DOI 10.3969/j.issn.1006-2475.2015.08.017
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 汤进 安徽大学计算机科学与技术学院 83 407 11.0 15.0
3 罗斌 安徽大学计算机科学与技术学院 181 1213 16.0 25.0
9 张兵 安徽大学计算机科学与技术学院 8 27 4.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (106)
共引文献  (298)
参考文献  (16)
节点文献
引证文献  (3)
同被引文献  (6)
二级引证文献  (0)
1998(3)
  • 参考文献(0)
  • 二级参考文献(3)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(3)
  • 参考文献(0)
  • 二级参考文献(3)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(5)
  • 参考文献(0)
  • 二级参考文献(5)
2003(5)
  • 参考文献(0)
  • 二级参考文献(5)
2004(11)
  • 参考文献(0)
  • 二级参考文献(11)
2005(16)
  • 参考文献(0)
  • 二级参考文献(16)
2006(4)
  • 参考文献(0)
  • 二级参考文献(4)
2007(15)
  • 参考文献(2)
  • 二级参考文献(13)
2008(15)
  • 参考文献(1)
  • 二级参考文献(14)
2009(7)
  • 参考文献(0)
  • 二级参考文献(7)
2010(10)
  • 参考文献(3)
  • 二级参考文献(7)
2011(11)
  • 参考文献(4)
  • 二级参考文献(7)
2012(3)
  • 参考文献(0)
  • 二级参考文献(3)
2013(8)
  • 参考文献(4)
  • 二级参考文献(4)
2014(2)
  • 参考文献(1)
  • 二级参考文献(1)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(2)
  • 引证文献(2)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
超链接
网页标题
发布时间
实时
信息抽取
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机与现代化
月刊
1006-2475
36-1137/TP
大16开
南昌市井冈山大道1416号
44-121
1985
chi
出版文献量(篇)
9036
总下载数(次)
25
总被引数(次)
56782
论文1v1指导