作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
面向深层网数据的爬虫技术与反爬虫技术之间的对抗随着网站技术、大数据、异步传输等技术的发展而呈现此消彼长的趋势.综合对比当前主流的爬虫和反爬虫技术,针对高效开发、快速爬取的需求,MUCrawler(多源统一爬虫框架)被设计成一种可以面向多个网站数据源,以统一的接口形式提供爬虫开发的Python框架.测试结果显示,该框架不但能够突破不同的反爬虫技术获取网站数据,在开发效率、鲁棒性和爬取效率等方面也体现出较好的运行效果.
推荐文章
一种新型网络爬虫的设计与实现
Socket
Http
网络爬虫
客户端/服务器
一种Deep Web聚焦爬虫爬行策略
结构化Deep Web数据源
聚焦爬虫
决策树分类器
统一登录框架设计及其与Resin容器的融合实现
统一登录
Resin容器
Authenticator
一种规范Web开发框架的研究与实现
Web应用
JSF
Spring
TopLink
开发框架
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种多源统一爬虫框架的设计与实现
来源期刊 软件工程 学科
关键词 Python开发 网络爬虫 浏览器行为 HTTP请求
年,卷(期) 2021,(4) 所属期刊栏目 方法与技术|Method & Technology
研究方向 页码范围 30-33
页数 4页 分类号 TP311.1
字数 语种 中文
DOI 10.19644/j.cnki.issn2096-1472.2021.04.007
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (77)
共引文献  (104)
参考文献  (15)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(3)
  • 参考文献(1)
  • 二级参考文献(2)
1999(3)
  • 参考文献(0)
  • 二级参考文献(3)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(7)
  • 参考文献(0)
  • 二级参考文献(7)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(6)
  • 参考文献(1)
  • 二级参考文献(5)
2007(7)
  • 参考文献(0)
  • 二级参考文献(7)
2008(4)
  • 参考文献(1)
  • 二级参考文献(3)
2009(5)
  • 参考文献(1)
  • 二级参考文献(4)
2010(7)
  • 参考文献(0)
  • 二级参考文献(7)
2011(6)
  • 参考文献(1)
  • 二级参考文献(5)
2012(3)
  • 参考文献(1)
  • 二级参考文献(2)
2013(1)
  • 参考文献(0)
  • 二级参考文献(1)
2014(2)
  • 参考文献(0)
  • 二级参考文献(2)
2015(3)
  • 参考文献(0)
  • 二级参考文献(3)
2016(6)
  • 参考文献(1)
  • 二级参考文献(5)
2017(7)
  • 参考文献(0)
  • 二级参考文献(7)
2018(6)
  • 参考文献(2)
  • 二级参考文献(4)
2019(3)
  • 参考文献(2)
  • 二级参考文献(1)
2020(3)
  • 参考文献(3)
  • 二级参考文献(0)
2021(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
Python开发
网络爬虫
浏览器行为
HTTP请求
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件工程
月刊
2096-1472
21-1603/TP
大16开
辽宁省沈阳市浑南新区新秀街2号
8-198
1985
chi
出版文献量(篇)
5636
总下载数(次)
15
总被引数(次)
7315
论文1v1指导