基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着现代社会互联网的普及应用,产生的海量数据普遍存在质量问题。针对数据质量中不一致性问题进行研究,设计并实现了基于Hadoop并行平台的不一致数据检测与修复算法。采用数据依赖理论中的条件函数依赖,根据给定规则检测不一致数据集,对这些不一致数据求解修复方案,使得修复结果满足数据一致性要求,并给出修复结果的确定性概率。最后通过实验证明了该算法较已有的单机算法有更好的修复效果,当约束规则较少的情况下,算法执行时间呈线性增长。
推荐文章
时态RDF数据的不一致性修复和预处理
时态数据模型
有效时间
时态数据的不一致性
变化操作
基于标记的不一致数据查询处理框架
不一致数据
数据质量
完整性约束
一致的查询回答
标记
基于雷达与诱饵时序不一致的DOA估计算法
波达方向
分辨率
均方误差
时序不一致信号
支持有效时间的时态RDF数据的不一致性分析
时态数据模型
有效时间
时态数据的不一致性
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 大数据上基于Hadoop的不一致数据检测与修复算法
来源期刊 计算机科学与探索 学科 工学
关键词 数据一致性 MapReduce 条件函数依赖 数据质量
年,卷(期) 2015,(9) 所属期刊栏目 数据库技术
研究方向 页码范围 1044-1055
页数 12页 分类号 TP311
字数 8526字 语种 中文
DOI 10.3778/j.issn.1673-9418.1411043
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李建中 哈尔滨工业大学计算机科学与技术学院 237 6003 33.0 72.0
2 王宏志 哈尔滨工业大学计算机科学与技术学院 69 557 12.0 21.0
3 高宏 哈尔滨工业大学计算机科学与技术学院 109 1574 18.0 36.0
4 张安珍 哈尔滨工业大学计算机科学与技术学院 3 18 1.0 3.0
5 门雪莹 哈尔滨工业大学计算机科学与技术学院 1 17 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (4)
节点文献
引证文献  (17)
同被引文献  (52)
二级引证文献  (143)
1998(2)
  • 参考文献(2)
  • 二级参考文献(0)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2016(8)
  • 引证文献(3)
  • 二级引证文献(5)
2017(30)
  • 引证文献(6)
  • 二级引证文献(24)
2018(48)
  • 引证文献(3)
  • 二级引证文献(45)
2019(50)
  • 引证文献(5)
  • 二级引证文献(45)
2020(24)
  • 引证文献(0)
  • 二级引证文献(24)
研究主题发展历程
节点文献
数据一致性
MapReduce
条件函数依赖
数据质量
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学与探索
月刊
1673-9418
11-5602/TP
大16开
北京市海淀区北四环中路211号北京619信箱26分箱
82-560
2007
chi
出版文献量(篇)
2215
总下载数(次)
4
总被引数(次)
10748
论文1v1指导