原文服务方: 计算机应用研究       
摘要:
为解决现有提高重复数据消除系统吞吐量方法的局部性依赖和多节点依赖问题,提出了一种基于文件相似性分簇的重复数据消除模型.该模型将传统平面型索引结构拓展为空间结构,并依据Broder定理仅选择少量最具代表性的索引驻留在内存中;同时对索引进行横向分片并分布到完全自治的多个节点.实验结果表明,该方法能有效提高大规模云存储环境下重复数据消除性能和平均吞吐量,且各节点数据负载量均衡,故该模型可扩展性强.
推荐文章
基于关联规则的海量重复数据消除系统设计
关联规则
数据消除
系统框架
冗余纠正
通信接口
数据序列
检测编码
消除流程
基于Mahout的相似重复数据清洗策略研究
数据清洗
k-means
相似重复记录
文本聚类
相似索引:适用于重复数据删除的二级索引
重复数据删除
相似哈希
相似索引
块查找磁盘瓶颈问题
二级索引
基于面匹配的模型相似性度量方法
模型相似性
面邻接图
面匹配矩阵
贪心算法
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于文件相似性分簇的重复数据消除模型
来源期刊 计算机应用研究 学科
关键词 云存储 重复数据消除 吞吐量 文件相似性分簇 负载均衡
年,卷(期) 2012,(5) 所属期刊栏目 算法研究探讨
研究方向 页码范围 1684-1689
页数 分类号 TP309.3
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2012.05.022
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 秦志光 电子科技大学计算机科学与工程学院 262 3157 26.0 46.0
3 王灿 电子科技大学计算机科学与工程学院 9 36 4.0 5.0
5 王娟 成都信息工程学院网络工程学院 29 106 5.0 9.0
10 蔡博 电子科技大学计算机科学与工程学院 1 5 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (4)
参考文献  (5)
节点文献
引证文献  (5)
同被引文献  (6)
二级引证文献  (2)
2000(2)
  • 参考文献(2)
  • 二级参考文献(0)
2010(2)
  • 参考文献(2)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2012(1)
  • 引证文献(1)
  • 二级引证文献(0)
2013(1)
  • 引证文献(1)
  • 二级引证文献(0)
2014(2)
  • 引证文献(1)
  • 二级引证文献(1)
2016(1)
  • 引证文献(0)
  • 二级引证文献(1)
2017(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
云存储
重复数据消除
吞吐量
文件相似性分簇
负载均衡
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导