基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
Spark通过使用内存分布数据集,更加适合负载数据挖掘与机器学习等需要大量迭代的工作.但是数据分析师直接使用Spark进行开发十分复杂,包括scala学习门槛高,代码优化与系统部署需要丰富的经验,同时代码的复用度低导致重复工作繁多.本文设计并实现了一种基于Spark的可视化流程式机器学习的方法,一方面设计组件模型来刻画机器学习的基本步骤,包括数据预处理、特征处理、模型训练及验证评估,另一方面提供可视化的流程建模工具,支持分析者设计机器学习流程,由工具自动翻译为Spark平台代码高效执行.本工具可以极大的提高Spark平台机器学习应用开发的效率.论文介绍了工具的方法理论和关键技术,并通过案例表明工具的有效性.
推荐文章
基于Apache Spark机器学习的生态安全格局构建方法
机器学习
Apache Spark(阿帕奇火花)
逻辑斯蒂回归
生态安全格局构建
基于自动机器学习流程优化的雷达辐射源信号识别
自动机器学习
超参数优化
遗传编程
雷达辐射源信号
支持向量机
基于IDEO方法的机器导盲犬开发设计流程
IDEO
机器导盲犬
开发设计
剧情引导设计
原型构建
模型制作
基于机器学习的域名信用评价方法
不良应用
失信
域名
信用评价
机器学习
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Spark的流程化机器学习分析方法
来源期刊 计算机系统应用 学科
关键词 机器学习 数据分析 分布式 大数据 Spark
年,卷(期) 2016,(12) 所属期刊栏目 软件技术·算法
研究方向 页码范围 162-168
页数 7页 分类号
字数 6519字 语种 中文
DOI 10.15888/j.cnki.csa.005454
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王伟 中国科学院软件研究所 295 3192 30.0 44.0
2 刘杰 中国科学院软件研究所 218 1905 24.0 36.0
3 赵玲玲 10 71 3.0 8.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (7)
共引文献  (464)
参考文献  (2)
节点文献
引证文献  (10)
同被引文献  (46)
二级引证文献  (11)
1977(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(1)
  • 二级参考文献(1)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(1)
  • 参考文献(0)
  • 二级参考文献(1)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(2)
  • 引证文献(2)
  • 二级引证文献(0)
2018(9)
  • 引证文献(4)
  • 二级引证文献(5)
2019(8)
  • 引证文献(4)
  • 二级引证文献(4)
2020(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
机器学习
数据分析
分布式
大数据
Spark
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机系统应用
月刊
1003-3254
11-2854/TP
大16开
北京中关村南四街4号
82-558
1991
chi
出版文献量(篇)
10349
总下载数(次)
20
总被引数(次)
57078
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导