基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着互联网技术的飞速发展和网络数据的急速增长,如何对海量数据进行快速有效地采集和分析已经成为大数据分析与应用领域中亟待解决的重要问题.基于Scrapy框架实现主从式结构的分布式网络爬虫,运用开源项目Scrapy-Redis来部署网络爬虫,继而完成对知乎网站话题的爬取与分析工作,共爬取44346个话题、94688个回答和31202个用户数据,并从话题、回答、用户这三个方面应用可视化技术进行多维度分析.结果表明,开放式网络问答社区的话题主题与网络用户性别、地理位置分布及专业背景等因素具有显著的线性相关关系.该方法可推广应用于自动模式识别、网络舆情预测等大数据应用领域.
推荐文章
基于Scrapy的分布式网络新闻抓取系统设计
Scrapy框架
分布式网络爬虫
网络新闻抓取系统
分布式手机信令数据采集与分析技术研究
智能手机
分布式计算
分布式数据库
Spark技术
分布式机载数据采集系统
微型计算机
位总线
数据采集
数据处理
分布式机载
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Scrapy的分布式数据采集与分析 ——以知乎话题为例
来源期刊 湖北师范大学学报(自然科学版) 学科 工学
关键词 Scrapy 分布式 数据分析 知乎
年,卷(期) 2019,(3) 所属期刊栏目
研究方向 页码范围 1-7
页数 7页 分类号 TP391.1
字数 4770字 语种 中文
DOI 10.3969/j.issn.2096-3149.2019.03.001
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李光敏 湖北师范大学计算机科学与技术学院 15 88 6.0 9.0
2 李平 黄冈师范学院数学与统计学院 8 15 3.0 3.0
3 汪聪 湖北师范大学计算机科学与技术学院 1 1 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (13)
共引文献  (10)
参考文献  (5)
节点文献
引证文献  (1)
同被引文献  (2)
二级引证文献  (0)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(2)
  • 参考文献(0)
  • 二级参考文献(2)
2013(2)
  • 参考文献(0)
  • 二级参考文献(2)
2014(3)
  • 参考文献(0)
  • 二级参考文献(3)
2016(1)
  • 参考文献(0)
  • 二级参考文献(1)
2017(4)
  • 参考文献(3)
  • 二级参考文献(1)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
Scrapy
分布式
数据分析
知乎
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
湖北师范大学学报(自然科学版)
季刊
2096-3149
42-1568/N
大16开
湖北省黄石市沈家营
38-126
1982
chi
出版文献量(篇)
2421
总下载数(次)
4
总被引数(次)
6975
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导