原文服务方: 计算机测量与控制       
摘要:
微博作为优质的数据源,其中的数据非常适合做舆情分析等;新浪官方提供的API限制数据采集速度,而利用模拟登录的网络爬虫采集数据又相对复杂且会降低效率;针对这些问题,设计了一个免登录的微博网络爬虫;通过实验表明,该爬虫可以更快的对微博数据进行完整稳定的采集;随着对数据需求量越来越大,单机网络爬虫已经不足以满足要求,将Hadoop分布式计算平台与免登录爬虫相结合,设计了一个基于MapReduce的分布式网络爬虫系统,利用多台计算机组成的集群,实现短时间内免登录抓取海量微博数据;通过实验证明,该爬虫系统可以每天稳定抓取近千万条微博.
推荐文章
基于GNP算法的分布式爬虫调度策略
分布式爬虫
任务调度
负载均衡
网络测量
全局网络定位
基于协程模型的分布式爬虫框架
协程
分布式
高性能
爬虫
新型的多分布式用户单点登录模型
单点登录模型
认证授权
基于角色
面向服务
代理
基于Hadoop的分布式并行增量爬虫技术研究
Hadoop集群
分布式爬虫
并行爬虫
增量爬虫
刷新策略
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 针对微博的免登录分布式网络爬虫的研究
来源期刊 计算机测量与控制 学科
关键词 免登录网络爬虫 分布式网络爬虫 Hadoop MapReduce
年,卷(期) 2019,(7) 所属期刊栏目 设计与应用
研究方向 页码范围 128-131,136
页数 5页 分类号 TP391.3
字数 语种 中文
DOI 10.16526/j.cnki.11-4762/tp.2019.07.028
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王林 西安理工大学自动化与信息工程学院 74 1063 14.0 31.0
2 刘星辰 西安理工大学自动化与信息工程学院 1 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (24)
共引文献  (123)
参考文献  (4)
节点文献
引证文献  (2)
同被引文献  (16)
二级引证文献  (0)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(7)
  • 参考文献(0)
  • 二级参考文献(7)
2011(7)
  • 参考文献(1)
  • 二级参考文献(6)
2012(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(3)
  • 参考文献(1)
  • 二级参考文献(2)
2014(2)
  • 参考文献(2)
  • 二级参考文献(0)
2019(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
免登录网络爬虫
分布式网络爬虫
Hadoop
MapReduce
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机测量与控制
月刊
1671-4598
11-4762/TP
大16开
北京市海淀区阜成路甲8号
1993-01-01
出版文献量(篇)
0
总下载数(次)
0
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导