原文服务方: 华侨大学学报(自然科学版)       
摘要:
通过分析基于内容的链接选择Best-First算法,引入能够体现链接价值的HITS(hyperlink induced topic search)算法,提出了新的链接选择策略.将两种算法相结合,新的爬虫不仅仅考虑页面内容,同时将链接结构加入进来,使得在下载的过程中能够保证主题相关性和权威性,缓解爬虫在爬行阶段的"近视"现象.结果表明:新的爬行策略比单一的Best-First算法具有更好的性能表现.
推荐文章
基于主题相关概念和网页分块的主题爬虫研究
主题爬虫
主题相关概念
网页分块
优先级计算
R-HITS
融合链接文本的增量联合主题模型
主题模型
增量学习
链接—概率隐含语义分析
自适应非对称学习
自适应增量链接—概率隐含语义分析
基于URL模式集的主题爬虫
主题爬虫
URL模式
URL前缀树
模式关系图
URL模式重要性
主题爬虫技术研究综述
网络爬虫
主题爬虫
相似度
网页内容
链接分析
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 融合链接结构的主题爬虫算法
来源期刊 华侨大学学报(自然科学版) 学科
关键词 Best-First算法 链接结构 HITS算法 爬行策略
年,卷(期) 2017,(2) 所属期刊栏目
研究方向 页码范围 195-200
页数 6页 分类号 TP311
字数 语种 中文
DOI 10.11830/ISSN.1000-5013.201702012
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘韶涛 华侨大学计算机科学与技术学院 20 53 4.0 5.0
2 李洪胜 华侨大学计算机科学与技术学院 1 4 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (25)
共引文献  (21)
参考文献  (5)
节点文献
引证文献  (4)
同被引文献  (16)
二级引证文献  (4)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(4)
  • 参考文献(0)
  • 二级参考文献(4)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(4)
  • 参考文献(0)
  • 二级参考文献(4)
2008(3)
  • 参考文献(0)
  • 二级参考文献(3)
2009(3)
  • 参考文献(1)
  • 二级参考文献(2)
2010(3)
  • 参考文献(1)
  • 二级参考文献(2)
2012(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(3)
  • 参考文献(1)
  • 二级参考文献(2)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(3)
  • 引证文献(1)
  • 二级引证文献(2)
2019(2)
  • 引证文献(1)
  • 二级引证文献(1)
2020(2)
  • 引证文献(1)
  • 二级引证文献(1)
研究主题发展历程
节点文献
Best-First算法
链接结构
HITS算法
爬行策略
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
华侨大学学报(自然科学版)
双月刊
1000-5013
35-1079/N
大16开
1980-01-01
chi
出版文献量(篇)
2681
总下载数(次)
0
总被引数(次)
14643
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导