基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着大数据时代的到来,网络爬虫已经成为很普遍的技术,无论是做项目、科研、创业或者写论文,获得大量数据并且对数据进行分析都是必不可少的.但是目前存在深层网(Deep Web)的数据量是表层网(Surface Web)数据量的数百倍,乃至上千倍.传统的爬虫对表层网数据进行获取已经无法满足我们的需求,同时因为深层网数据通常没有各种复杂的标签结构等,使得其本身更加清晰,干净,故而我们深入研究深层网络爬虫是非常有必要的.本文将会通过Python的Scrapy爬虫框架,对深层网络爬虫进行研究,通过分析深层网络特点制定合适的Scrapy爬虫策略,最后通过实际操作,对指定的爬虫策略进行验证.
推荐文章
基于Scrapy框架的爬虫和反爬虫研究
网站
网络爬虫
反爬虫
Python
Scrapy框架
基于Scrapy的网络爬虫系统框架设计与实现
Scrapy
网络爬虫
系统框架设计
数据库设计
基于WebKit的网络爬虫
网络爬虫
浏览器引擎
WebKit
JavaScript
主题网络爬虫研究综述
主题网络爬虫
信息检索
Web挖掘
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Scrapy的深层网络爬虫研究
来源期刊 软件 学科 工学
关键词 深层网 网络爬虫 Scrapy Python
年,卷(期) 2017,(7) 所属期刊栏目 设计研究与应用
研究方向 页码范围 111-114
页数 4页 分类号 TP314
字数 3635字 语种 中文
DOI 10.3969/j.issn.1003-6970.2017.07.025
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘宇 7 87 4.0 7.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (33)
共引文献  (109)
参考文献  (16)
节点文献
引证文献  (33)
同被引文献  (75)
二级引证文献  (34)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(6)
  • 参考文献(0)
  • 二级参考文献(6)
2005(5)
  • 参考文献(2)
  • 二级参考文献(3)
2006(8)
  • 参考文献(1)
  • 二级参考文献(7)
2007(9)
  • 参考文献(0)
  • 二级参考文献(9)
2008(3)
  • 参考文献(1)
  • 二级参考文献(2)
2009(2)
  • 参考文献(2)
  • 二级参考文献(0)
2010(4)
  • 参考文献(4)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(2)
  • 参考文献(2)
  • 二级参考文献(0)
2016(2)
  • 参考文献(2)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(13)
  • 引证文献(12)
  • 二级引证文献(1)
2019(37)
  • 引证文献(14)
  • 二级引证文献(23)
2020(17)
  • 引证文献(7)
  • 二级引证文献(10)
研究主题发展历程
节点文献
深层网
网络爬虫
Scrapy
Python
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件
月刊
1003-6970
12-1151/TP
16开
北京市3108信箱
1979
chi
出版文献量(篇)
9374
总下载数(次)
40
论文1v1指导