基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
爬虫软件是现今互联网环境下,高效准确地获取数据的重要方式之一.针对传统的初级爬虫技术易于被目标网站拦截访问的问题,简述爬虫的工作原理和方式,讨论爬虫、反爬虫与反反爬虫之间的相互关系.分析应对目标网站的反反爬虫机制,包括伪装用户代理,设置IP地址代理、使用自动化测试工具调用浏览器等技术要点,并分析了基于Python语言中Requests库,构建了对网页的多种请求方式和数据获取方法的解决方案.结合反反爬虫机制与数据分析技术,以哔哩哔哩视频网为案例,分析其网页基本结构与调用的应用程序接口,使用Python与Requests库抓取网站所有视频的相关数据.数据清洗后分析播放量最高视频的相关信息,并将结论以数据可视化的方式呈现,实现对数据的获取、挖掘与分析.
推荐文章
基于Python的网络爬虫技术研究
Python
网络爬虫技术
搜索引擎
基于Python的健康数据爬虫设计与实现
爬虫
多数据源
Python
网页解析
基于Python的网络爬虫研究
网络爬虫
Python
可视化
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Python的反反爬虫技术分析与应用
来源期刊 智能计算机与应用 学科 工学
关键词 网络爬虫 反爬虫 反反爬虫 大数据 数据分析
年,卷(期) 2018,(4) 所属期刊栏目
研究方向 页码范围 112-115
页数 4页 分类号 TP319
字数 2486字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 匡芳君 温州商学院信息工程学院 20 61 4.0 7.0
2 余豪士 温州商学院信息工程学院 1 15 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (58)
共引文献  (414)
参考文献  (10)
节点文献
引证文献  (15)
同被引文献  (33)
二级引证文献  (6)
2002(4)
  • 参考文献(0)
  • 二级参考文献(4)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(4)
  • 参考文献(0)
  • 二级参考文献(4)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(6)
  • 参考文献(0)
  • 二级参考文献(6)
2008(6)
  • 参考文献(0)
  • 二级参考文献(6)
2009(3)
  • 参考文献(1)
  • 二级参考文献(2)
2010(10)
  • 参考文献(0)
  • 二级参考文献(10)
2011(7)
  • 参考文献(1)
  • 二级参考文献(6)
2012(9)
  • 参考文献(1)
  • 二级参考文献(8)
2013(4)
  • 参考文献(1)
  • 二级参考文献(3)
2014(3)
  • 参考文献(1)
  • 二级参考文献(2)
2015(2)
  • 参考文献(0)
  • 二级参考文献(2)
2016(2)
  • 参考文献(2)
  • 二级参考文献(0)
2017(2)
  • 参考文献(2)
  • 二级参考文献(0)
2018(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(11)
  • 引证文献(11)
  • 二级引证文献(0)
2020(9)
  • 引证文献(3)
  • 二级引证文献(6)
研究主题发展历程
节点文献
网络爬虫
反爬虫
反反爬虫
大数据
数据分析
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
智能计算机与应用
双月刊
2095-2163
23-1573/TN
大16开
哈尔滨市南岗区繁荣街155号(哈工大新技术楼916室)
14-144
1985
chi
出版文献量(篇)
6183
总下载数(次)
26
总被引数(次)
14240
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导