基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
目前在网站信息增量爬取中,采用布隆过滤器去重是比较有效的方法,但随着存入的元素数量增加,误算率随之增加.为此本文设计并实现了一种基于窗口比较的网站信息增量爬取方法,按照网站数据呈现顺序一次性爬取有限长度的数据,并按照网站数据的呈现顺序放入数据队列,在数据队列末端设定比较窗口,通过检查比较窗口内的数据与已爬取数据的重复度决定是否停止数据爬取.实验表明,针对增量爬取未严格按照时间排序网站信息时,本方法降低了爬取损耗.
推荐文章
新浪微博数据爬取研究
新浪微博
数据爬取
微博爬虫
Python
基于EBNF和二次爬取策略的XSS漏洞检测技术
跨站脚本
扩展的巴科斯范式
攻击向量
渗透测试
网站邮件信息收集的方法及实现
电子邮件
信息收集
POP3协议
Delphi
基于增量式互信息的图像快速匹配方法?
图像匹配
增量式灰度统计
互信息
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于窗口比较的网站信息增量爬取方法
来源期刊 网络新媒体技术 学科
关键词 增量爬取 爬取效率 Hash 布隆过滤器
年,卷(期) 2017,(4) 所属期刊栏目 学术研究
研究方向 页码范围 24-27
页数 4页 分类号
字数 2684字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 尤佳莉 中国科学院声学研究所国家网络新媒体工程技术研究中心 34 78 5.0 6.0
2 刘学 中国科学院声学研究所国家网络新媒体工程技术研究中心 60 207 8.0 12.0
3 脱立恒 中国科学院声学研究所国家网络新媒体工程技术研究中心 5 17 3.0 4.0
4 麻朴方 中国科学院声学研究所国家网络新媒体工程技术研究中心 2 1 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (9)
共引文献  (9)
参考文献  (4)
节点文献
引证文献  (1)
同被引文献  (12)
二级引证文献  (0)
2000(3)
  • 参考文献(1)
  • 二级参考文献(2)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(2)
  • 参考文献(1)
  • 二级参考文献(1)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
增量爬取
爬取效率
Hash
布隆过滤器
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
网络新媒体技术
双月刊
2095-347X
10-1055/TP
大16开
北京海淀区北四环西路21号
2-304
1980
chi
出版文献量(篇)
3082
总下载数(次)
5
论文1v1指导