作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对网络大量重复页面,本文研究基于Bloom Filter的网络爬虫URL地址消重算法.首先,本文对Bloom Filter算法进行了分析研究;其次,本文应用Bloom Filter算法设计并实现了网络爬虫的URL消重;最后,论文采用URL消重率争爬虫爬取某类网站所用时间等性能指标,对基于遍历法和基于MD5算法的URL消重性能与基于Bloom Filter的消重性能做了对比.实验证明,基于Bloom Filter的网络爬虫URL地址消重算法效率较高.
推荐文章
基于Bloom Filter的去重方法研究
信息超载
个性化推荐系统
Bloom Filter
双结构网络中URL去重机制研究
统一内容标签去重
动态可分裂
布隆过滤器
双结构网络
网络爬虫
基于URL模式集的主题爬虫
主题爬虫
URL模式
URL前缀树
模式关系图
URL模式重要性
基于动态bloom filter的云存储安全去重方案
云存储
数据去重
bloom filter
收敛加密
所有权证明
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Bloom Filter的网络爬虫URL消重算法研究
来源期刊 产业与科技论坛 学科 工学
关键词 网络爬虫 Bloom Filter算法 hash函数 MD5
年,卷(期) 2011,(18) 所属期刊栏目 科技创新
研究方向 页码范围 55-56
页数 分类号 TP391.3
字数 2112字 语种 中文
DOI 10.3969/j.issn.1673-5641.2011.18.032
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王春梅 四川大学计算机学院 17 72 5.0 8.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (1)
共引文献  (20)
参考文献  (4)
节点文献
引证文献  (5)
同被引文献  (14)
二级引证文献  (5)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(2)
  • 参考文献(2)
  • 二级参考文献(0)
2011(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
2013(1)
  • 引证文献(1)
  • 二级引证文献(0)
2014(2)
  • 引证文献(1)
  • 二级引证文献(1)
2015(2)
  • 引证文献(2)
  • 二级引证文献(0)
2016(2)
  • 引证文献(0)
  • 二级引证文献(2)
2017(1)
  • 引证文献(0)
  • 二级引证文献(1)
2018(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
网络爬虫
Bloom Filter算法
hash函数
MD5
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
产业与科技论坛
半月刊
1673-5641
13-1371/F
大16开
河北省石家庄市
18-181
2006
chi
出版文献量(篇)
43551
总下载数(次)
161
总被引数(次)
66232
论文1v1指导