基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
Heritrix是一个开源的、可扩展的Web爬虫,页面下载功能强大,但Heritrix被定义为一个通用网络爬虫,其在增量爬取方面功能有限.针对目前使用较为广泛的两个Heritrix版本,首先讨论Heritrix 1.14.4增量功能模块的不足之处,然后基于Heritrix 3.x,详细阐述一套新的增量功能框架的设计方案,这个框架既能有效利用Heritrix 3.×的页面下载功能,又能高效地对数据进行增量抓取.
推荐文章
基于Heritrix限定爬虫的设计与实现
限定爬虫
Heritrix
IP地址
合理性
实用性
基于Heritrix的面向电子商务网站增量爬虫研究
Heritrix
增量抓取
爬行策略
电子商务
基于Heritrix主题爬虫的定制与实现
主题爬虫
定制与实现
基于Hadoop的分布式并行增量爬虫技术研究
Hadoop集群
分布式爬虫
并行爬虫
增量爬虫
刷新策略
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Heritrix的增量式爬虫设计与实现
来源期刊 电信技术 学科
关键词 Heritrix 网络爬虫 增量抓取 Index型网页
年,卷(期) 2014,(9) 所属期刊栏目 产品与解决方案
研究方向 页码范围 97-101
页数 5页 分类号
字数 3655字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王晶 北京邮电大学网络与交换技术国家重点实验室 68 339 8.0 15.0
3 沈奇威 北京邮电大学网络与交换技术国家重点实验室 48 327 10.0 15.0
9 孟庆浩 北京邮电大学网络与交换技术国家重点实验室 1 6 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (2)
共引文献  (5)
参考文献  (1)
节点文献
引证文献  (6)
同被引文献  (19)
二级引证文献  (4)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(3)
  • 引证文献(3)
  • 二级引证文献(0)
2019(4)
  • 引证文献(0)
  • 二级引证文献(4)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
Heritrix
网络爬虫
增量抓取
Index型网页
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电信技术
月刊
1000-1247
11-2100/TN
大16开
北京市丰台区成寿路11号邮电大厦8层
2-675
1954
chi
出版文献量(篇)
7270
总下载数(次)
13
论文1v1指导