基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
伴随着互联网的快速发展, 获取信息已经成为人们日常生活中必不可少的一部分.在众多信息来源中, 通过浏览器进入网站获取信息是绝大多数人的选择, 但如果按照这种方式正常地进行信息获取, 获取信息速度较慢, 量较小, 由此便产生了网络爬虫.网络爬虫又称为网络蜘蛛或网络机器人, 可以按照使用人定制的规则, 短时间内在万维网上搜集大量特定信息.网络爬虫在爬取信息的同时, 也带了一些问题, 如大量信息被非正常获取, 是一种损失, 同时, 大量爬虫对网站维护也是一个巨大的负担.如何在维护网民正常访问的前提下, 有效阻止这些爬虫就显得十分重要.因此, 文中主要研究Python语言开发的开源爬虫框架Scrapy所开发的爬虫, 对目前网站常用的一些反爬虫手段进行分析, 基于Scrapy框架以及具体网站, 举例说明爬虫如何应对网站这些反爬措施.
推荐文章
基于协程模型的分布式爬虫框架
协程
分布式
高性能
爬虫
基于Scrapy框架的爬虫设计
Scrapy框架
爬虫
数据可视化
基于Scrapy的网络爬虫系统框架设计与实现
Scrapy
网络爬虫
系统框架设计
数据库设计
基于URL模式集的主题爬虫
主题爬虫
URL模式
URL前缀树
模式关系图
URL模式重要性
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Scrapy框架的爬虫和反爬虫研究
来源期刊 计算机技术与发展 学科 工学
关键词 网站 网络爬虫 反爬虫 Python Scrapy框架
年,卷(期) 2019,(2) 所属期刊栏目 安全与防范
研究方向 页码范围 139-142
页数 4页 分类号 TP309
字数 2854字 语种 中文
DOI 10.3969/j.issn.1673-629X.2019.02.029
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 马明栋 南京邮电大学地理与生物信息学院 19 118 7.0 10.0
2 王得玉 南京邮电大学地理与生物信息学院 22 85 5.0 8.0
3 韩贝 南京邮电大学通信与信息工程学院 1 13 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (52)
共引文献  (32)
参考文献  (13)
节点文献
引证文献  (13)
同被引文献  (44)
二级引证文献  (4)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(4)
  • 参考文献(0)
  • 二级参考文献(4)
2009(3)
  • 参考文献(0)
  • 二级参考文献(3)
2010(9)
  • 参考文献(1)
  • 二级参考文献(8)
2011(4)
  • 参考文献(0)
  • 二级参考文献(4)
2012(4)
  • 参考文献(0)
  • 二级参考文献(4)
2013(8)
  • 参考文献(2)
  • 二级参考文献(6)
2014(4)
  • 参考文献(0)
  • 二级参考文献(4)
2015(6)
  • 参考文献(1)
  • 二级参考文献(5)
2016(7)
  • 参考文献(1)
  • 二级参考文献(6)
2017(9)
  • 参考文献(7)
  • 二级参考文献(2)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(11)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(10)
  • 二级引证文献(1)
2019(11)
  • 引证文献(10)
  • 二级引证文献(1)
2020(6)
  • 引证文献(3)
  • 二级引证文献(3)
研究主题发展历程
节点文献
网站
网络爬虫
反爬虫
Python
Scrapy框架
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机技术与发展
月刊
1673-629X
61-1450/TP
大16开
西安市雁塔路南段99号
52-127
1991
chi
出版文献量(篇)
12927
总下载数(次)
40
总被引数(次)
111596
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导