基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
数据质量是大数据研究的重要领域之一.数据一致性是数据质量评估的关键度量指标,它基于数据依赖来表述数据应该遵循的质量准则.差别依赖可以描述数据间的差异性,除了相等,还可以在定义中引入大于、小于等序列关系,因而具有较强的表述能力.数据依赖验证的目的是在数据集中发现违反数据依赖的部分数据,是进一步数据质量工作的基础.利用分布式计算环境来处理差别依赖验证的问题,以应对大数据的需求.提出分布式的随机三角分布算法,可以正确而高效地完成差别依赖在数据集上的检测;基于差别依赖的性质和数据分布特征,提出排序三角分布算法,更好地优化算法.实验证明,算法相较于常见分布式计算工具SparkSQL和Hive具有显著改善.
推荐文章
时延和时延差别受限的最大带宽多播路由分布式算法
QoS多播路由
可用带宽
时延
时延差别
基于连接依赖信息的分布式连接查询优化算法
分布式数据库
站点依赖
连接依赖
片段复制
基于改进猫群算法的分布式电源优化配置
分布式电源
改进猫群算法
多目标优化
混沌理论
配电网
基于改进萤火虫算法的分布式电源优化配置
分布式电源
多目标优化
改进萤火虫算法
超效率数据包
混沌理论
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 差别依赖验证的分布式算法
来源期刊 计算机应用与软件 学科 工学
关键词 数据质量 差别依赖 分布式算法 数据依赖验证
年,卷(期) 2018,(11) 所属期刊栏目 算法
研究方向 页码范围 259-265
页数 7页 分类号 TP31
字数 7051字 语种 中文
DOI 10.3969/j.issn.1000-386x.2018.11.044
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 谈子敬 复旦大学计算机科学技术学院 15 229 6.0 15.0
2 覃昇 复旦大学计算机科学技术学院 1 0 0.0 0.0
3 肖永松 复旦大学计算机科学技术学院 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (4)
共引文献  (4)
参考文献  (3)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2016(2)
  • 参考文献(2)
  • 二级参考文献(0)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
数据质量
差别依赖
分布式算法
数据依赖验证
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用与软件
月刊
1000-386X
31-1260/TP
大16开
上海市愚园路546号
4-379
1984
chi
出版文献量(篇)
16532
总下载数(次)
47
总被引数(次)
101489
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导