基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着重复数据删除次数的增加,系统中用于存储指纹索引的清单文件等元数据信息会不断累积,导致不可忽视的存储资源开销.因此,如何在不影响重复数据删除率的基础上,对重复数据删除过程中产生的元数据信息进行压缩,从而减小查重索引,是进一步提高重复数据删除效率和存储资源利用率的重要因素.针对查重元数据中存在大量冗余数据,提出了一种基于压缩近邻的查重元数据去冗算法Dedup2.该算法先利用聚类算法将查重元数据分为若干类,然后利用压缩近邻算法消除查重元数据中相似度较高的数据以获得查重子集,并在该查重子集上利用文件相似性对数据对象进行重复数据删除操作.实验结果表明,Dedup2可以在保持近似的重复数据删除比的基础上,将查重索引大小压缩50%以上.
推荐文章
基于K近邻的众包数据分类算法
众包数据
质量控制
K近邻投票
多数投票
基于特征串的网页文本并行去重算法
搜索引擎
特征串
网页去重
Simhash
Map/Reduce
改进的基于布尔模型的网页查重算法
网络
特征
布尔模型
相似网页
基于元搜索的网页去重算法
元搜索
网页
去重
分词
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于压缩近邻的查重元数据去冗算法设计
来源期刊 通信学报 学科 工学
关键词 重复数据删除 查重元数据 近邻压缩规则
年,卷(期) 2015,(8) 所属期刊栏目 学术论文
研究方向 页码范围 1-7
页数 7页 分类号 TP391
字数 5678字 语种 中文
DOI 10.11959/j.issn.1000-436x.2015226
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 姚文斌 北京邮电大学智能通信软件与多媒体北京市重点实验室 22 200 7.0 13.0
5 李小勇 北京邮电大学可信分布式计算与服务教育部重点实验室 8 196 4.0 8.0
6 常静坤 北京邮电大学智能通信软件与多媒体北京市重点实验室 4 14 3.0 3.0
10 叶鹏迪 中国铁道科学研究院机车车辆研究所 1 4 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (3)
节点文献
引证文献  (4)
同被引文献  (7)
二级引证文献  (0)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(2)
  • 参考文献(2)
  • 二级参考文献(0)
2015(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2016(2)
  • 引证文献(2)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
重复数据删除
查重元数据
近邻压缩规则
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
通信学报
月刊
1000-436X
11-2102/TN
大16开
北京市丰台区成寿路11号邮电出版大厦8层
2-676
1980
chi
出版文献量(篇)
6235
总下载数(次)
17
总被引数(次)
85479
论文1v1指导