基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
网页去重是从给定的大量的数据集合中检测出冗余的网页,然后将冗余的网页从该数据集合中去除的过程,其中基于同源网页的URL去重的研究已经取得了很大的发展,但是针对海量网页去重问题,目前还没有很好的解决方案,文章在基于MD5指纹库网页去重算法的基础上,结合Counting Bloom Filter算法的特性,提出了一种快速去重算法IMP-CBFilter。该算法通过减少I/O频繁操作,来提高海量网页去重的效率。实验表明,IMP-CBFilter算法的有效性。
推荐文章
基于Bloom Filter的去重方法研究
信息超载
个性化推荐系统
Bloom Filter
基于Bloom Filter的网页去重算法
Bloom filter
网页去重
长句
Hash函数
多路平衡型矩阵Bloom Filter
海量数据存储
BloomFilter
拆分BloomFilter
多路平衡型矩阵BloomFilter
基于动态bloom filter的云存储安全去重方案
云存储
数据去重
bloom filter
收敛加密
所有权证明
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于 Counting Bloom Filter 的海量网页快速去重研究
来源期刊 安徽电气工程职业技术学院学报 学科 工学
关键词 网页去重 MD5指纹库 Counting Bloom Filter IMP-CBFilter算法
年,卷(期) 2016,(3) 所属期刊栏目 自动控制与计算机应用
研究方向 页码范围 92-97
页数 6页 分类号 TP393
字数 4745字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 吴家奇 3 4 2.0 2.0
2 刘年国 3 4 2.0 2.0
3 李雪 4 5 2.0 2.0
4 陶涛 2 3 1.0 1.0
5 王芬 3 3 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (48)
共引文献  (53)
参考文献  (7)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1960(1)
  • 参考文献(0)
  • 二级参考文献(1)
1970(2)
  • 参考文献(1)
  • 二级参考文献(1)
1983(1)
  • 参考文献(0)
  • 二级参考文献(1)
1986(1)
  • 参考文献(0)
  • 二级参考文献(1)
1989(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(5)
  • 参考文献(0)
  • 二级参考文献(5)
2004(5)
  • 参考文献(1)
  • 二级参考文献(4)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(8)
  • 参考文献(1)
  • 二级参考文献(7)
2007(5)
  • 参考文献(0)
  • 二级参考文献(5)
2008(13)
  • 参考文献(1)
  • 二级参考文献(12)
2009(3)
  • 参考文献(0)
  • 二级参考文献(3)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(2)
  • 参考文献(2)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
网页去重
MD5指纹库
Counting Bloom Filter
IMP-CBFilter算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
安徽电气工程职业技术学院学报
季刊
1672-9706
34-1297/Z
大16开
安徽省合肥市黄山路330号
26-163
1996
chi
出版文献量(篇)
2472
总下载数(次)
8
总被引数(次)
6093
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导