基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
高质量的决策依赖于高质量的数据,数据预处理是数据挖掘至关重要的环节.传统的数据预处理系统并不能很好的适用于大数据环境,企业现阶段主要使用Hadoop/Hive对海量数据进行预处理,但普遍存在耗时长、效率低、无交互等问题.提出了一种基于Spark的交互式数据预处理系统,系统提供一套通用的数据预处理组件,并支持组件的扩展,数据以电子表格的形式展现,系统记录用户的处理过程并支持撤销重做.本文从数据模型、数据预处理操作、交互式执行引擎以及交互式前端四个方面描述了系统架构.最后使用医疗脑卒中的真实数据对系统进行验证,实验结果表明,系统能够在大数据场景下满足交互式处理需求.
推荐文章
交互式电子白板课堂教学质量评价数据分析处理系统设计
教学质量评价
交互式电子白板
系统设计
数据分析
数据处理
仿真实验
基于Spark的飞机试验数据预处理技术研究
飞行试验
数据预处理
分布式技术
内存计算
基于LabVIEW的数据实时采集与预处理系统
LabVIEW
虚拟仪器
信号采集
预处理
基于手势识别技术的交互式虚拟摄影系统设计与实现
手势识别技术
交互式
虚拟
数据编程
摄影系统
系统设计
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Spark的交互式数据预处理系统
来源期刊 计算机系统应用 学科
关键词 数据预处理 Spark 交互式 大数据
年,卷(期) 2016,(11) 所属期刊栏目 系统建设
研究方向 页码范围 84-89
页数 6页 分类号
字数 5633字 语种 中文
DOI 10.15888/j.cnki.csa.005453
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张磊 307 3154 27.0 45.0
5 钟华 中国科学院软件研究所软件工程技术研究开发中心 56 727 11.0 25.0
6 朱锋 中国科学院软件研究所软件工程技术研究开发中心 6 31 3.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (4)
共引文献  (203)
参考文献  (4)
节点文献
引证文献  (11)
同被引文献  (23)
二级引证文献  (0)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(1)
  • 二级参考文献(1)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(7)
  • 引证文献(7)
  • 二级引证文献(0)
2018(2)
  • 引证文献(2)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
数据预处理
Spark
交互式
大数据
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机系统应用
月刊
1003-3254
11-2854/TP
大16开
北京中关村南四街4号
82-558
1991
chi
出版文献量(篇)
10349
总下载数(次)
20
总被引数(次)
57078
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导