原文服务方: 西安交通大学学报       
摘要:
针对基于内容分块重复数据删除方法缺少能够定量分析预期分块长度与重复数据删除率之间关系的数学模型,导致难以通过调整预期分块长度优化重复数据删除率的问题,提出了一种基于Logistic函数的数学模型.在大量真实数据测观察基础上,提出了通过Logistic函数描述非重复数据的“S”形变化趋势,解决了该数据难以从理论上推导、建模的问题,证明了基于内容分块过程服从二项分布,并从理论上推导出了元数据大小模型.基于上述两种数据模型,通过数学运算最终推导得到重复数据删除率模型,并利用收集到的3组真实数据集对模型进行了实验验证.实验结果表明:反映数学模型拟合优度的R2值在0.9以上,说明该模型能够准确地反映出预期分块长度与重复数据删除率之间的数学关系.该模型为进一步研究如何通过调整预期分块长度使重复数据删除率最优化提供了理论基础.
推荐文章
一种云存储系统中重复数据删除机制
云存储
重复数据删除
数据副本
指纹极值的双层重复数据删除算法
重复数据删除
指纹极值
备份系统
Hadoop
数据存储
重复数据删除中的无向图遍历分组预测方法
重复数据删除
分组预测
大规模存储系统
相似索引:适用于重复数据删除的二级索引
重复数据删除
相似哈希
相似索引
块查找磁盘瓶颈问题
二级索引
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 内容分块算法中预期分块长度对重复数据删除率的影响
来源期刊 西安交通大学学报 学科
关键词 基于内容分块 重复数据删除率 Logistic函数
年,卷(期) 2016,(12) 所属期刊栏目
研究方向 页码范围 73-78
页数 6页 分类号 TP333
字数 语种 中文
DOI 10.7652/xjtuxb201612012
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 董小社 西安交通大学电子与信息工程学院 114 962 16.0 24.0
2 张兴军 西安交通大学电子与信息工程学院 37 347 8.0 18.0
3 王寅峰 深圳信息职业技术学院软件学院 20 67 5.0 7.0
4 王龙翔 西安交通大学电子与信息工程学院 5 17 3.0 4.0
5 公维峰 3 9 2.0 3.0
6 魏晓林 西安交通大学电子与信息工程学院 2 7 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (5)
共引文献  (10)
参考文献  (3)
节点文献
引证文献  (5)
同被引文献  (34)
二级引证文献  (5)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(4)
  • 参考文献(1)
  • 二级参考文献(3)
2012(2)
  • 参考文献(1)
  • 二级参考文献(1)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(2)
  • 引证文献(2)
  • 二级引证文献(0)
2019(3)
  • 引证文献(2)
  • 二级引证文献(1)
2020(5)
  • 引证文献(1)
  • 二级引证文献(4)
研究主题发展历程
节点文献
基于内容分块
重复数据删除率
Logistic函数
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
西安交通大学学报
月刊
0253-987X
61-1069/T
大16开
1960-01-01
chi
出版文献量(篇)
7020
总下载数(次)
0
总被引数(次)
81310
论文1v1指导