基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚焦爬行技术在同时解决高效率爬行和高质量的爬行结果等方面还存在许多问题.文中提出了一种基于联合链接相似度评估的爬行算法,该算法在评估链接的主题相似度时,联合使用了关于链接主题相似度的直接证据和间接证据.直接证据通过计算链接的锚链文本的主题相似度来获得,而间接证据则是通过一个基于Q学习的Web链接图增量学习算法获取.该算法首先利用聚焦爬行过程中得到的结果页面,建立起一个Web链接图.然后通过在线学习Web链接图,获取链接和链接主题相似度之间的映射关系.通过对链接进行多属性特征建模,使得链接评估器能够将当前链接映射到Web链接图的链接空间中,从而获得当前链接的近似主题相似度.在3个主题域上对该算法进行了实验,结果表明,该算法可以显著提高爬行结果的精度和召回率.
推荐文章
基于链接相似度Web挖掘算法的研究与改进
Web挖掘
HITS算法
DS-HITS算法
基于语义主题相似度的Web教育资源查询方法
语义主题
本体知识库
资源组织框架
相似度匹配
基于链接关系的Web页面相似度搜索
Web页面网络
相似度搜索
SimRank
基于语义树与VSM的主题爬取策略研究
主题爬虫
语义树
向量空间模型
内容相关度
链接排序
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 使用联合链接相似度评估爬取Web资源
来源期刊 计算机学报 学科 工学
关键词 聚焦爬行 主题相似度 链接评估 Web链接图 Q学习
年,卷(期) 2010,(12) 所属期刊栏目
研究方向 页码范围 2267-2280
页数 分类号 TP311
字数 16317字 语种 中文
DOI 10.3724/SP.J.1016.2010.02267
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 余伟 武汉大学软件工程国家重点实验室 34 260 10.0 14.0
2 李石君 武汉大学计算机学院 88 753 16.0 22.0
3 张卓 武汉大学计算机学院 48 176 7.0 13.0
4 张乃洲 武汉大学软件工程国家重点实验室 3 32 3.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (10)
共引文献  (9)
参考文献  (4)
节点文献
引证文献  (13)
同被引文献  (13)
二级引证文献  (25)
1999(3)
  • 参考文献(1)
  • 二级参考文献(2)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(3)
  • 参考文献(1)
  • 二级参考文献(2)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2011(1)
  • 引证文献(1)
  • 二级引证文献(0)
2012(2)
  • 引证文献(2)
  • 二级引证文献(0)
2013(1)
  • 引证文献(1)
  • 二级引证文献(0)
2014(3)
  • 引证文献(3)
  • 二级引证文献(0)
2015(4)
  • 引证文献(3)
  • 二级引证文献(1)
2016(7)
  • 引证文献(1)
  • 二级引证文献(6)
2017(6)
  • 引证文献(1)
  • 二级引证文献(5)
2018(6)
  • 引证文献(0)
  • 二级引证文献(6)
2019(6)
  • 引证文献(0)
  • 二级引证文献(6)
2020(2)
  • 引证文献(1)
  • 二级引证文献(1)
研究主题发展历程
节点文献
聚焦爬行
主题相似度
链接评估
Web链接图
Q学习
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机学报
月刊
0254-4164
11-1826/TP
大16开
中国科学院计算技术研究所(北京2704信箱)
2-833
1978
chi
出版文献量(篇)
5154
总下载数(次)
49
总被引数(次)
187004
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导