基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
构建和运行数据仓库的关键步骤是ETL,而ETL中的最关键步骤就是数据的清洗和转换.在当今数据爆炸式增长的背景下,数据清洗与转换的挑战主要来自于源数据的复杂性和数据量的庞大,针对数据庞大的问题,目前Hadoop体系的Mapreduce框架已经成为海量数据处理领域的事实标准.本文主要分析在大数据环境下数据清洗工作中数据来源的复杂性问题,并针对这些问题提出了基于Hadoop的简单的可扩展的数据清洗框架,可以让本框架的使用者只需要用少量代码完成基于Mapreduce的海量复杂数据的清洗工作,Mapreduce的复杂性对开发者透明.并以某互联网公司使用此框架收集的用户行为日志数据作为示例,在示例中,此框架相比之前的解决方案极大地提高了海量数据清洗的准确性和效率.另外,本框架还可以应用于海量的非结构化数据的清洗.
推荐文章
支持 Hadoop大数据访问的pNFS框架研究与实现
分布式文件系统
大数据
缓存
布局
基于Hadoop分布式系统的地质环境大数据框架探讨
大数据
地质环境数据
Hadoop生态系统
云计算
科技创新大数据清洗框架研究
科技创新大数据
数据质量
数据清洗
数据清洗框架
基于Hadoop的网络行为大数据安全实体识别系统设计
网络行为
大数据
安全实体识别
Hadoop框架
接收发送
信息存储
系统设计
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Hadoop的大数据清洗框架设计与应用
来源期刊 网络新媒体技术 学科
关键词 数据清洗 hadoop mapreduce 大数据
年,卷(期) 2015,(5) 所属期刊栏目 网络通讯与计算技术
研究方向 页码范围 33-38
页数 6页 分类号
字数 3077字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张磊 北京航空航天大学软件学院 78 721 15.0 25.0
2 靳丹 13 37 4.0 5.0
3 王宝会 北京航空航天大学软件学院 6 28 4.0 5.0
4 王洪军 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2015(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
数据清洗
hadoop
mapreduce
大数据
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
网络新媒体技术
双月刊
2095-347X
10-1055/TP
大16开
北京海淀区北四环西路21号
2-304
1980
chi
出版文献量(篇)
3082
总下载数(次)
5
论文1v1指导