基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
关系数据库中可能存在数据不一致性现象,关系数据库数据质量的一个主要问题是存在违反函数依赖情况。为找出不一致数据,需要进行函数依赖冲突检测。集中式数据库中可以通过 SQL 技术检测不一致情况,尽管检测效率不高;而分布式环境下不一致性检测更富有挑战性,不仅需要考虑数据的迁移,检测任务如何分配也是一个难题。在大数据背景下,上述问题更加突出。提出了一种分布式环境单函数依赖不一致性检测方法,给出了不一致性检测响应时间代价模型。为减少数据迁移量和响应时间,基于等价类对待检测数据进行预处理。由于分布式环境不一致性检测问题为 NP-hard 问题,多项式时间内难以得到最优解,给出了代价模型的多项式时间3/2-近似最优解。提出了一种分布式环境多函数依赖不一致性检测方法,基于最小集合覆盖理论,通过一次数据遍历,对多个函数依赖进行并行批检测,同时考虑检测过程中的负载均衡等问题。在真实和人工数据集上的实验表明:相对于传统的检测方法以及基于Hadoop的Na?ve方法,所提出的检测方法检测效率有明显的提升,且扩展性能良好。
推荐文章
模糊本体合并语义不一致性自动检测和处理
模糊本体
本体合并
自动检测
映射
隶属度
语义不一致性
HIS中表间数据不一致性分析
数据
不一致性
管理
ECMWF业务预报模式地面气温预报的不一致性特征研究
ECMWF
地面气温预报
不一致性指数
预报跳跃
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 分布式大数据不一致性检测?
来源期刊 软件学报 学科 工学
关键词 函数依赖 不一致性 冲突检测 分布式数据 大数据
年,卷(期) 2016,(8) 所属期刊栏目 数据库技术
研究方向 页码范围 2068-2085
页数 18页 分类号 TP311
字数 15942字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李战怀 西北工业大学计算机科学学院 254 2139 21.0 35.0
2 陈群 西北工业大学计算机科学学院 54 495 11.0 20.0
3 姜涛 西北工业大学计算机科学学院 11 53 5.0 7.0
4 李卫榜 西北工业大学计算机科学学院 4 22 2.0 4.0
5 杨婧颖 西北工业大学计算机科学学院 2 18 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (4)
节点文献
引证文献  (10)
同被引文献  (29)
二级引证文献  (19)
1997(1)
  • 参考文献(1)
  • 二级参考文献(0)
1999(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(4)
  • 引证文献(3)
  • 二级引证文献(1)
2018(11)
  • 引证文献(4)
  • 二级引证文献(7)
2019(11)
  • 引证文献(3)
  • 二级引证文献(8)
2020(3)
  • 引证文献(0)
  • 二级引证文献(3)
研究主题发展历程
节点文献
函数依赖
不一致性
冲突检测
分布式数据
大数据
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件学报
月刊
1000-9825
11-2560/TP
16开
北京8718信箱
82-367
1990
chi
出版文献量(篇)
5820
总下载数(次)
36
总被引数(次)
226394
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导