基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着互联网信息的爆炸式增长,搜索引擎和大数据等学科迫切需要一种高效、稳定、可扩展性强的爬虫架构来完成数据的采集和分析.本文借助于对等网络的思路,使用分布式哈希表作为节点间的数据交互的载体,同时针对网络爬虫自身的特点,对分布式哈希表的一种实现——Kademlia协议进行改进以满足分布式爬虫的需求.在此基础上设计并完善了具有可扩展性和容错性的分布式爬虫集群.在实际试验中,进行了单机多线程实验和分布式集群的实验,从系统性能角度和系统负载角度进行分析,实验结果表明了这种分布式集群方法的有效性.
推荐文章
基于GNP算法的分布式爬虫调度策略
分布式爬虫
任务调度
负载均衡
网络测量
全局网络定位
基于协程模型的分布式爬虫框架
协程
分布式
高性能
爬虫
针对微博的免登录分布式网络爬虫的研究
免登录网络爬虫
分布式网络爬虫
Hadoop
MapReduce
基于Hadoop的分布式并行增量爬虫技术研究
Hadoop集群
分布式爬虫
并行爬虫
增量爬虫
刷新策略
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于改进Kademlia协议的分布式爬虫
来源期刊 计算机系统应用 学科
关键词 分布式哈希表 P2P 网络爬虫 Kademlia协议 去中心化
年,卷(期) 2016,(4) 所属期刊栏目 软件技术·算法
研究方向 页码范围 156-161
页数 6页 分类号
字数 4221字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 陶耀东 中国科学院沈阳计算技术研究所 36 253 8.0 13.0
2 向中希 中国科学院沈阳计算技术研究所 2 10 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (18)
共引文献  (30)
参考文献  (6)
节点文献
引证文献  (8)
同被引文献  (25)
二级引证文献  (14)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(3)
  • 参考文献(1)
  • 二级参考文献(2)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(5)
  • 参考文献(2)
  • 二级参考文献(3)
2011(4)
  • 参考文献(2)
  • 二级参考文献(2)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(8)
  • 引证文献(5)
  • 二级引证文献(3)
2019(7)
  • 引证文献(0)
  • 二级引证文献(7)
2020(6)
  • 引证文献(2)
  • 二级引证文献(4)
研究主题发展历程
节点文献
分布式哈希表
P2P
网络爬虫
Kademlia协议
去中心化
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机系统应用
月刊
1003-3254
11-2854/TP
大16开
北京中关村南四街4号
82-558
1991
chi
出版文献量(篇)
10349
总下载数(次)
20
总被引数(次)
57078
论文1v1指导