基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
对于大数据而言,机器学习技术是不可或缺的;对于机器学习而言,大规模的数据可以提升模型的精准度.然而复杂的机器学习算法从时间和性能上都急需分布式内存计算这种关键技术.Spark分布式内存计算可以实现算法的并行操作,有利于机器学习算法处理大数据集.因此本文提出在Spark分布式内存环境下实现非线性机器学习算法,其中包括多层可变神经网络、BPPGD SVM、K-means,并在实现的基础上进行数据压缩、数据偏向抽样或者数据加载等方面的优化.为了实现充分配置资源批量运行脚本,本文也实现SparkML调度框架来调度以上优化算法.实验结果表明,优化后的3种算法平均误差降低了40%,平均时间缩短了90%.
推荐文章
基于分布式计算框架的大数据机器学习
机器学习
大数据
分布计算模型
机器学习分布式大数据分析模型构建方法
大数据分析
分布式计算
机器学习
Angel+:基于Angel的分布式机器学习平台
分布式机器学习平台
参数服务器
大数据处理系统
分布式机器学习系统
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Spark的分布式大数据机器学习算法
来源期刊 计算机与现代化 学科 工学
关键词 数据压缩 偏向抽样 随机梯度下降 神经网络 支持向量机
年,卷(期) 2018,(11) 所属期刊栏目 数据挖掘
研究方向 页码范围 119-126
页数 8页 分类号 TP183
字数 6095字 语种 中文
DOI 10.3969/j.issn.1006-2475.2018.11.021
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 贾玉祥 郑州大学信息工程学院 15 61 5.0 7.0
2 韩锐 中国科学院计算技术研究所先进计算机系统研究中心 18 32 3.0 4.0
3 王芮 郑州大学信息工程学院 6 16 2.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (1)
节点文献
引证文献  (5)
同被引文献  (32)
二级引证文献  (0)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(4)
  • 引证文献(4)
  • 二级引证文献(0)
研究主题发展历程
节点文献
数据压缩
偏向抽样
随机梯度下降
神经网络
支持向量机
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机与现代化
月刊
1006-2475
36-1137/TP
大16开
南昌市井冈山大道1416号
44-121
1985
chi
出版文献量(篇)
9036
总下载数(次)
25
总被引数(次)
56782
论文1v1指导