基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对服务器中存储的大量重复和相似数据造成的空间浪费问题,改进的布隆过滤器(Bloom Filter)算法通过增加位数组并根据位数组的重复命中次数所计算的权重来动态优化重复数据的副本数,然后在Hadoop分布式集群下对改进的算法进行并行实现,以进一步提高作业处理效率.实验结果表明,与传统网页去重算法相比,改进的Bloom Filter算法的并行实现不仅提高了作业的处理效率,而且通过基于位数组下动态重复次数对副本数的优化,在一定程度上节省了服务器的存储空间.
推荐文章
基于布隆过滤器的事务存储架构中的高速缓存
多核处理器
事务存储
布隆过滤器
高速缓存
收油泵过滤器结构的改进
收油泵
过滤器
叶轮
改进措施
效益
基于Netfilter的实时网页内容过滤器的设计与实现
实时内容过滤
网络包过滤
gizp压缩
HTML页面文件
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Hadoop下改进布隆过滤器算法的网页去重
来源期刊 计算机工程与科学 学科 工学
关键词 Hadoop 布隆过滤器 副本数 MapReduce
年,卷(期) 2017,(2) 所属期刊栏目 高性能计算
研究方向 页码范围 285-290
页数 6页 分类号 TP301
字数 3590字 语种 中文
DOI 10.3969/j.issn.1007-130X.2017.02.010
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 黄伟建 河北工程大学信息与电气工程学院 43 119 6.0 9.0
2 杨海龙 河北工程大学信息与电气工程学院 2 1 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (111)
共引文献  (98)
参考文献  (14)
节点文献
引证文献  (1)
同被引文献  (15)
二级引证文献  (0)
1950(1)
  • 参考文献(0)
  • 二级参考文献(1)
1970(1)
  • 参考文献(0)
  • 二级参考文献(1)
1979(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(4)
  • 参考文献(0)
  • 二级参考文献(4)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(4)
  • 参考文献(0)
  • 二级参考文献(4)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(9)
  • 参考文献(0)
  • 二级参考文献(9)
2007(11)
  • 参考文献(0)
  • 二级参考文献(11)
2008(21)
  • 参考文献(0)
  • 二级参考文献(21)
2009(15)
  • 参考文献(0)
  • 二级参考文献(15)
2010(16)
  • 参考文献(0)
  • 二级参考文献(16)
2011(13)
  • 参考文献(3)
  • 二级参考文献(10)
2012(5)
  • 参考文献(1)
  • 二级参考文献(4)
2013(8)
  • 参考文献(3)
  • 二级参考文献(5)
2014(5)
  • 参考文献(5)
  • 二级参考文献(0)
2015(2)
  • 参考文献(2)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
Hadoop
布隆过滤器
副本数
MapReduce
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与科学
月刊
1007-130X
43-1258/TP
大16开
湖南省长沙市开福区德雅路109号国防科技大学计算机学院
42-153
1973
chi
出版文献量(篇)
8622
总下载数(次)
11
总被引数(次)
59030
相关基金
河北省自然科学基金
英文译名:
官方网址:
项目类型:
学科类型:
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导