基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为了高效获取更多的微博数据,针对调用微博API和网页版(com版)等传统微博爬虫在数据采集中所存在的问题,设计开发了一个基于Java的采集新浪微博Weibo.cn站点的网络爬虫系统.该系统通过广度遍历结合组拼URL的方式采集网页源码,使网页源码更加简洁,纯净度更高,降低了网络传输压力并减少了HTML源码解析时间.主要实现了微博模拟登陆、微博网页爬取、微博页面数据提取和任务调度控制,并对爬取数据进行了分析,在爬虫中添加了主题微博筛选功能.为验证该系统的有效性和可行性,与其他传统方法进行了分析对比.实验验结果表明,所提出的系统爬取效率更高,实现代码更简便.
推荐文章
新浪微博数据爬取研究
新浪微博
数据爬取
微博爬虫
Python
针对微博的免登录分布式网络爬虫的研究
免登录网络爬虫
分布式网络爬虫
Hadoop
MapReduce
新浪微博的体育新闻传播研究
新浪微博
体育新闻
传播
基于新浪微博的公交系统数据采集及分析
微博
公交系统
数据抓取
中文分词
大数据
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Java的新浪微博爬虫研究与实现
来源期刊 计算机技术与发展 学科 工学
关键词 新浪微博 网络爬虫 Java 数据挖掘
年,卷(期) 2017,(9) 所属期刊栏目 应用开发研究
研究方向 页码范围 191-196
页数 6页 分类号 TP39
字数 5939字 语种 中文
DOI 10.3969/j.issn.1673-629X.2017.09.042
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 陈珂 广东石油化工学院计算机与电子信息学院 62 243 8.0 12.0
2 柯文德 广东石油化工学院计算机与电子信息学院 57 230 8.0 12.0
3 邓文天 广东石油化工学院计算机与电子信息学院 4 9 2.0 3.0
4 黎树俊 广东石油化工学院计算机与电子信息学院 7 11 2.0 3.0
5 蓝鼎栋 广东石油化工学院计算机与电子信息学院 3 12 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (58)
共引文献  (226)
参考文献  (12)
节点文献
引证文献  (6)
同被引文献  (29)
二级引证文献  (9)
1998(3)
  • 参考文献(0)
  • 二级参考文献(3)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(6)
  • 参考文献(0)
  • 二级参考文献(6)
2005(5)
  • 参考文献(0)
  • 二级参考文献(5)
2006(9)
  • 参考文献(0)
  • 二级参考文献(9)
2007(6)
  • 参考文献(2)
  • 二级参考文献(4)
2008(2)
  • 参考文献(1)
  • 二级参考文献(1)
2009(2)
  • 参考文献(1)
  • 二级参考文献(1)
2010(7)
  • 参考文献(1)
  • 二级参考文献(6)
2011(6)
  • 参考文献(1)
  • 二级参考文献(5)
2012(5)
  • 参考文献(0)
  • 二级参考文献(5)
2013(7)
  • 参考文献(4)
  • 二级参考文献(3)
2014(5)
  • 参考文献(2)
  • 二级参考文献(3)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(2)
  • 引证文献(2)
  • 二级引证文献(0)
2019(11)
  • 引证文献(4)
  • 二级引证文献(7)
2020(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
新浪微博
网络爬虫
Java
数据挖掘
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机技术与发展
月刊
1673-629X
61-1450/TP
大16开
西安市雁塔路南段99号
52-127
1991
chi
出版文献量(篇)
12927
总下载数(次)
40
总被引数(次)
111596
相关基金
广东省自然科学基金
英文译名:Guangdong Natural Science Foundation
官方网址:http://gdsf.gdstc.gov.cn/
项目类型:研究团队
学科类型:
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导