基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
微博不仅数据量大,而且实时性高,采用传统的Web文本爬取方式,很难在短时间内获取足量的微博.为了解决研究微博数据面临的数据采集问题,提出了基于MapReduce的微博数据采集平台,将整个微博抓取系统部署在hadoop平台上,充分利用hadoop分布式框架的特点,实现多节点同时抓取微博,很大程度上提高了抓取速率;并就微博采集过程中因输入数据过小导致hadoop不能有效均衡负载的问题,提出了采用多个小文件的输入方式,有效地解决了负载不均衡的问题.最后以Sina微博为例进行结,结果表明,该系统成本低、扩展性好、效率高,可广泛应用于基于微博数据的舆情分析以及传播学和虚拟社会学等方面的研究,并作为其基础数据采集平台.
推荐文章
基于语义的微博短文本倾向性分析研究
微博
情感倾向
语义相似度
支持向量机
基于微博平台的研究性学习探究
微博
研究性学习
模式
基于文本聚类与兴趣衰减的微博用户兴趣挖掘方法
微博
single-pass聚类
LDA模型
用户兴趣挖掘
兴趣衰减
基于新浪微博的公交系统数据采集及分析
微博
公交系统
数据抓取
中文分词
大数据
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于MapReduce的微博文本采集平台
来源期刊 计算机科学 学科 工学
关键词 Hadoop MapReduce 微博 数据采集 Sina
年,卷(期) 2012,(z3) 所属期刊栏目 信息存储与挖掘
研究方向 页码范围 143-145
页数 3页 分类号 TP311
字数 2601字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 胡长军 北京科技大学计算机与通信工程学院 64 555 10.0 21.0
2 于留宝 北京科技大学计算机与通信工程学院 2 111 2.0 2.0
3 苏林晗 北京科技大学计算机与通信工程学院 1 8 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (1)
节点文献
引证文献  (8)
同被引文献  (42)
二级引证文献  (43)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2014(2)
  • 引证文献(2)
  • 二级引证文献(0)
2015(6)
  • 引证文献(3)
  • 二级引证文献(3)
2016(9)
  • 引证文献(0)
  • 二级引证文献(9)
2017(10)
  • 引证文献(1)
  • 二级引证文献(9)
2018(14)
  • 引证文献(1)
  • 二级引证文献(13)
2019(8)
  • 引证文献(0)
  • 二级引证文献(8)
2020(2)
  • 引证文献(1)
  • 二级引证文献(1)
研究主题发展历程
节点文献
Hadoop
MapReduce
微博
数据采集
Sina
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学
月刊
1002-137X
50-1075/TP
大16开
重庆市渝北区洪湖西路18号
78-68
1974
chi
出版文献量(篇)
18527
总下载数(次)
68
总被引数(次)
150664
论文1v1指导