基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对当前互联网网页越来越多样化、复杂化的特点,提出一种基于结构相似网页聚类的网页正文提取算法,首先,根据组成网页前端模板各"块"对模板的贡献赋以不同的权重,其次计算两个网页中对应块的相似度,将各块的相似度与权重乘积的总和作为两个网页的相似度.该算法充分考虑结构差别较大的网页对网页正文提取的影响,通过计算网页间相似度将网页聚类,使得同一簇中的网页正文提取结果更加准确.实验结果表明,该方法具有更高的准确率,各项评价指标均有所提高.
推荐文章
基于正文结构和长句提取的网页去重算法
网页去重
正文结构树
长句提取
层次指纹
基于布局相似性的网页正文内容提取研究
布局相似性
网页正文提取
信息检索
基于标记窗的网页正文信息提取方法
标记窗
提取
文档对象模型
基于相似度的词聚类算法
词相似度
词聚类
统计语言模型
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于结构相似网页聚类的正文提取算法研究
来源期刊 计算机工程与应用 学科 工学
关键词 正文提取 相似性 文档对象模型(DOM)树 层次聚类
年,卷(期) 2018,(11) 所属期刊栏目 模式识别与人工智能
研究方向 页码范围 122-127,139
页数 7页 分类号 TP391
字数 6353字 语种 中文
DOI 10.3778/j.issn.1002-8331.1701-0161
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王海涌 兰州交通大学电子与信息工程学院 30 313 11.0 16.0
2 冯兆旭 兰州交通大学电子与信息工程学院 1 3 1.0 1.0
3 杨海波 兰州交通大学电子与信息工程学院 1 3 1.0 1.0
4 张津栋 兰州交通大学电子与信息工程学院 2 7 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (35)
共引文献  (35)
参考文献  (9)
节点文献
引证文献  (3)
同被引文献  (0)
二级引证文献  (0)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1979(2)
  • 参考文献(0)
  • 二级参考文献(2)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(5)
  • 参考文献(0)
  • 二级参考文献(5)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(3)
  • 参考文献(0)
  • 二级参考文献(3)
2007(5)
  • 参考文献(0)
  • 二级参考文献(5)
2008(5)
  • 参考文献(0)
  • 二级参考文献(5)
2009(3)
  • 参考文献(0)
  • 二级参考文献(3)
2010(5)
  • 参考文献(2)
  • 二级参考文献(3)
2012(5)
  • 参考文献(3)
  • 二级参考文献(2)
2013(2)
  • 参考文献(2)
  • 二级参考文献(0)
2015(2)
  • 参考文献(2)
  • 二级参考文献(0)
2018(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
正文提取
相似性
文档对象模型(DOM)树
层次聚类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与应用
半月刊
1002-8331
11-2127/TP
大16开
北京619信箱26分箱
82-605
1964
chi
出版文献量(篇)
39068
总下载数(次)
102
总被引数(次)
390217
相关基金
甘肃省自然科学基金
英文译名:Natural Science Foundation of Gansu Province
官方网址:http://www.nwnu.edu.cn/kjc/glbf/gsshzrkxjjzxglbf.htm
项目类型:
学科类型:
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导