基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
主题网络爬虫是主题搜索引擎中的一种关键技术,针对OTIE算法参数考虑不全的问题,提出结合链接和网页内容分析的自适应算法,通过结合网页链接重要性和内容相关性得分得到主题网页下载优先级的综合评分,同时考虑在爬取主题网页中的隧道穿越问题。从ODP中选择主题和种子网页,将本算法与Best-First算法、Shark-Search算法和OTIE算法进行比较。实验结果表明,本算法不仅具有明显较好的查全率,而且具有很好的查准率。
推荐文章
融合链接结构的主题爬虫算法
Best-First算法
链接结构
HITS算法
爬行策略
基于链接和内容的BLCT主题爬行算法研究
垂直搜索引擎
PageRank算法
主题爬行
链接相似度
内容相似度
基于主题相关概念和网页分块的主题爬虫研究
主题爬虫
主题相关概念
网页分块
优先级计算
R-HITS
基于内容和链接分析的主题爬虫策略
主题爬虫
爬行策略
Web挖掘
论文评估
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种基于链接和内容分析的自适应主题爬虫算法
来源期刊 计算机与现代化 学科 工学
关键词 主题爬虫 OTIE算法 Shark-Search算法 隧道穿越
年,卷(期) 2015,(9) 所属期刊栏目 网络与通信
研究方向 页码范围 77-80,89
页数 5页 分类号 TP301
字数 4042字 语种 中文
DOI 10.3969/j.issn.1006-2475.2015.09.016
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 朱庆生 重庆大学计算机学院软件理论与技术重庆市重点实验室 175 1952 22.0 33.0
2 徐宁 重庆大学计算机学院软件理论与技术重庆市重点实验室 4 7 1.0 2.0
3 周瑜 重庆大学计算机学院软件理论与技术重庆市重点实验室 2 7 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (7)
共引文献  (5)
参考文献  (7)
节点文献
引证文献  (7)
同被引文献  (25)
二级引证文献  (6)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
1999(3)
  • 参考文献(2)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(2)
  • 参考文献(2)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(3)
  • 引证文献(3)
  • 二级引证文献(0)
2017(2)
  • 引证文献(1)
  • 二级引证文献(1)
2018(4)
  • 引证文献(1)
  • 二级引证文献(3)
2019(3)
  • 引证文献(1)
  • 二级引证文献(2)
研究主题发展历程
节点文献
主题爬虫
OTIE算法
Shark-Search算法
隧道穿越
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机与现代化
月刊
1006-2475
36-1137/TP
大16开
南昌市井冈山大道1416号
44-121
1985
chi
出版文献量(篇)
9036
总下载数(次)
25
总被引数(次)
56782
论文1v1指导