基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着数据仓库和数据挖掘等商务智能技术在企业应用中的逐步实现,原始生产数据的集成并产生新的面向主题的、集成的、时变的、稳定的数据集合,就成为必须的支撑条件。但企业的数据往往存在着大量质量问题,这将直接影响基于企业数据的信息服务的质量。数据清洗就是通过各种措施,从准确性、一致性、无冗余、符合应用的需求等方面提高数据的质量。本文针对ETL过程中的数据清洗任务,提出了结合改进的N-Gram文法纠错算法和GDBR泛化算法的数据清洗策略,并根据COBRA和CWM标准开发了接口应用工具。实践表明,该策略是可行并且有效的。
推荐文章
海洋数据仓库的数据清洗规则应用研究
滤波
离差法
数据仓库
数据清洗
数据挖掘
面向数据仓库的ETL工具的研究与实现
数据仓库
ETL
工作流引擎
元数据管理
面向Web的数据仓库体系设计
可扩展标记语言
数据仓库
数据挖掘
后勤数据仓库系统的设计与实现
数据仓库
数据仓库体系结构
智能查询
5W+H
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一个面向大规模数据仓库数据清洗策略的研究和实现
来源期刊 工程地质计算机应用 学科 工学
关键词 数据仓库 数据清洗 COBRA CWM 算法
年,卷(期) 2004,(3) 所属期刊栏目
研究方向 页码范围 10-13
页数 4页 分类号 TP301.6
字数 语种
DOI
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (1)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
数据仓库
数据清洗
COBRA
CWM
算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
工程地质计算机应用
季刊
16开
北京市六铺炕北小街2-1号水利水电规划设
1996
chi
出版文献量(篇)
676
总下载数(次)
2
总被引数(次)
2040
论文1v1指导