基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着互联网的快速发展,其信息量和相关服务也随之快速增长.如何从海量的信息中快速、准确地抓取所需要的信息变得越来越重要,因此负责互联网信息收集工作的网络爬虫将面临着巨大的机遇和挑战.目前国内外一些大型搜索引擎只给用户提供不可制定的搜索服务,而单机的网络爬虫又难当重任,因此可定制性强、信息采集速度快和规模大的分布式网络爬虫便应运而生.通过对原有Scrapy框架的学习和研究,将Scrapy和Redis结合改进原有的爬虫框架,设计并实现了一个基于Scrapy框架下的分布式网络爬虫系统,然后将从安居客、58同城、搜房等网站抓取的二手房信息存入MongoDB中,便于对数据进行进一步的处理和分析.结果表明基于Scrapy框架下的分布式网络爬虫系统同单机网络爬虫系统相比效率更高且更稳定.
推荐文章
基于GNP算法的分布式爬虫调度策略
分布式爬虫
任务调度
负载均衡
网络测量
全局网络定位
基于协程模型的分布式爬虫框架
协程
分布式
高性能
爬虫
针对微博的免登录分布式网络爬虫的研究
免登录网络爬虫
分布式网络爬虫
Hadoop
MapReduce
基于Scrapy的分布式网络新闻抓取系统设计
Scrapy框架
分布式网络爬虫
网络新闻抓取系统
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Scrapy的分布式爬虫系统的设计与实现
来源期刊 湖北民族学院学报(自然科学版) 学科 工学
关键词 Scrapy 分布式 Scrapy-Reids 网络爬虫 MongoDB 数据存储
年,卷(期) 2017,(3) 所属期刊栏目
研究方向 页码范围 317-322
页数 6页 分类号 TP3
字数 3847字 语种 中文
DOI 10.13501/j.cnki.42-1569/n.2017.09.016
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 钱慎一 郑州轻工业学院计算机与通信工程学院 40 183 7.0 12.0
2 吴怀广 郑州轻工业学院计算机与通信工程学院 12 47 4.0 6.0
3 李代祎 郑州轻工业学院计算机与通信工程学院 4 23 1.0 4.0
4 谢丽艳 2 22 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (63)
共引文献  (85)
参考文献  (13)
节点文献
引证文献  (21)
同被引文献  (72)
二级引证文献  (50)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(2)
  • 参考文献(0)
  • 二级参考文献(2)
1999(3)
  • 参考文献(0)
  • 二级参考文献(3)
2000(3)
  • 参考文献(0)
  • 二级参考文献(3)
2001(2)
  • 参考文献(1)
  • 二级参考文献(1)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(4)
  • 参考文献(0)
  • 二级参考文献(4)
2008(8)
  • 参考文献(1)
  • 二级参考文献(7)
2009(3)
  • 参考文献(0)
  • 二级参考文献(3)
2010(4)
  • 参考文献(0)
  • 二级参考文献(4)
2011(5)
  • 参考文献(2)
  • 二级参考文献(3)
2012(3)
  • 参考文献(2)
  • 二级参考文献(1)
2013(7)
  • 参考文献(2)
  • 二级参考文献(5)
2014(8)
  • 参考文献(3)
  • 二级参考文献(5)
2015(4)
  • 参考文献(0)
  • 二级参考文献(4)
2016(5)
  • 参考文献(1)
  • 二级参考文献(4)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(7)
  • 引证文献(6)
  • 二级引证文献(1)
2019(44)
  • 引证文献(13)
  • 二级引证文献(31)
2020(20)
  • 引证文献(2)
  • 二级引证文献(18)
研究主题发展历程
节点文献
Scrapy
分布式
Scrapy-Reids
网络爬虫
MongoDB
数据存储
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
湖北民族大学学报(自然科学版)
季刊
2096-7594
42-1908/N
大16开
湖北省恩施市三孔桥湖北民族学院学报编辑部
1982
chi
出版文献量(篇)
2388
总下载数(次)
3
总被引数(次)
8743
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导