基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
数据清洗是提高数据质量的重要手段之一.从数据产品与传统的有形产品、软件产品相类比的视角,研究数据清洗及其系统框架.数据清洗是数据质量研究的起点,从数据质量发展的角度明确数据清洗的地位和作用,并将其类比为其他产品形式的故障诊断与维修.对数据清洗做了10点说明,进一步澄清了其基本内涵;将数据清洗与数据集成进行了比较分析,指出二者是同等的数据质量概念.提出了数据清洗的一般性系统框架,其由准备、检测、定位、修正、验证5部分组成,允许在多处停止以完成不同的数据清洗任务,是一个柔性的、可扩展的、交互性好的、松耦合的框架.
推荐文章
视频图像理解的一般性框架研究
视频图像理解
视频图像分割
目标识别
行为理解
场景理解
文化的一般性质与品质研究
文化表征
文化品格
文化智慧
我国一般性转移支付制度改革的逻辑探索
一般性转移支付
均衡性转移支付
均等化
关于Cauchy中值定理"中值点"的一个一般性结果
Cauchy中值定理
中值点
渐近性
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 数据清洗及其一般性系统框架
来源期刊 计算机科学 学科 工学
关键词 数据质量 数据清洗 相似重复记录 不完整记录 框架
年,卷(期) 2012,(z3) 所属期刊栏目 信息存储与挖掘
研究方向 页码范围 207-211
页数 5页 分类号 TP311
字数 5729字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 曹建军 12 155 6.0 12.0
2 刁兴春 17 153 6.0 12.0
3 陈爽 1 52 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (90)
共引文献  (427)
参考文献  (18)
节点文献
引证文献  (52)
同被引文献  (86)
二级引证文献  (76)
1959(3)
  • 参考文献(1)
  • 二级参考文献(2)
1969(1)
  • 参考文献(0)
  • 二级参考文献(1)
1976(1)
  • 参考文献(0)
  • 二级参考文献(1)
1979(1)
  • 参考文献(0)
  • 二级参考文献(1)
1980(1)
  • 参考文献(0)
  • 二级参考文献(1)
1984(1)
  • 参考文献(0)
  • 二级参考文献(1)
1986(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(3)
  • 参考文献(0)
  • 二级参考文献(3)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(3)
  • 参考文献(1)
  • 二级参考文献(2)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(3)
  • 参考文献(0)
  • 二级参考文献(3)
1998(6)
  • 参考文献(2)
  • 二级参考文献(4)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(5)
  • 参考文献(0)
  • 二级参考文献(5)
2001(5)
  • 参考文献(0)
  • 二级参考文献(5)
2002(10)
  • 参考文献(1)
  • 二级参考文献(9)
2003(7)
  • 参考文献(0)
  • 二级参考文献(7)
2004(15)
  • 参考文献(3)
  • 二级参考文献(12)
2005(8)
  • 参考文献(0)
  • 二级参考文献(8)
2006(12)
  • 参考文献(2)
  • 二级参考文献(10)
2007(6)
  • 参考文献(2)
  • 二级参考文献(4)
2008(6)
  • 参考文献(1)
  • 二级参考文献(5)
2010(4)
  • 参考文献(3)
  • 二级参考文献(1)
2011(2)
  • 参考文献(2)
  • 二级参考文献(0)
2012(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2013(1)
  • 引证文献(1)
  • 二级引证文献(0)
2014(4)
  • 引证文献(2)
  • 二级引证文献(2)
2015(10)
  • 引证文献(9)
  • 二级引证文献(1)
2016(16)
  • 引证文献(13)
  • 二级引证文献(3)
2017(29)
  • 引证文献(13)
  • 二级引证文献(16)
2018(26)
  • 引证文献(8)
  • 二级引证文献(18)
2019(32)
  • 引证文献(6)
  • 二级引证文献(26)
2020(10)
  • 引证文献(0)
  • 二级引证文献(10)
研究主题发展历程
节点文献
数据质量
数据清洗
相似重复记录
不完整记录
框架
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学
月刊
1002-137X
50-1075/TP
大16开
重庆市渝北区洪湖西路18号
78-68
1974
chi
出版文献量(篇)
18527
总下载数(次)
68
论文1v1指导