基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对传统单机网络爬虫抓取效率低、稳定性差、数据量少等问题,文章利用Scrapy框架结合Redis技术,对传统网络爬虫框架进行改进和优化,设计出了分布式非结构化的网络爬虫系统,使采集到的信息能以非结构化形式存储于MongoDB数据库内,实现对数据信息的实时、有效处理分析.经过实际应用测试,证明基于Scrapy框架的分布式非结构化网络爬虫系统相较于传统单机系统具有更高的效率.
推荐文章
基于协程模型的分布式爬虫框架
协程
分布式
高性能
爬虫
基于Scrapy的网络爬虫系统框架设计与实现
Scrapy
网络爬虫
系统框架设计
数据库设计
针对微博的免登录分布式网络爬虫的研究
免登录网络爬虫
分布式网络爬虫
Hadoop
MapReduce
基于Scrapy的分布式网络新闻抓取系统设计
Scrapy框架
分布式网络爬虫
网络新闻抓取系统
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Scrapy框架的分布式网络爬虫系统设计与实现
来源期刊 现代信息科技 学科 工学
关键词 分布式 Scrapy框架 网络爬虫
年,卷(期) 2021,(19) 所属期刊栏目 信息技术|Information Technology
研究方向 页码范围 43-46
页数 4页 分类号 TP311
字数 语种 中文
DOI 10.19850/j.cnki.2096-4706.2021.19.011
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2021(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
分布式
Scrapy框架
网络爬虫
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
现代信息科技
半月刊
2096-4706
44-1736/TN
16开
广东省广州市白云区机场路1718号8A09
46-250
2017
chi
出版文献量(篇)
4784
总下载数(次)
45
总被引数(次)
3182
论文1v1指导