基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
基于大数据挖掘的实时性要求和数据样本的多样性特征,提出一种面向大数据挖掘的机器学习模型训练优化算法.分析当前算法的迭代计算过程,根据模型向量的改变量将迭代过程分为粗调和微调两个阶段,并发现在微调阶段绝大部分样本对计算结果的影响极小,因此可以在微调阶段不计算此类样本的梯度而直接采用上次迭代的计算结果,从而减小计算量,提升计算效率.试验结果表明,算法在分布式集群环境下可以减小模型训练约35%的计算量,且训练得到的模型准确度在正常范围内,可有效提高大数据挖掘的实时性.
推荐文章
基于Spark框架的FP-Growth大数据频繁项集挖掘算法
大数据
频繁项集挖掘
Spark框架
FP-Growth算法
垂直布局
基于关联规则的医疗大数据挖掘算法
关联规则
医疗
大数据
挖掘
算法
大数据的分类挖掘优化技术
大数据
信息融合
分类挖掘
聚类空间划分
特征提取
基于Hadoop的大数据频繁模式挖掘算法
Hadoop
频繁模式
大数据
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Parameter Server框架的大数据挖掘优化算法
来源期刊 山东大学学报(工学版) 学科 工学
关键词 大数据 分布式系统 机器学习 样本差异性 优化算法
年,卷(期) 2017,(4) 所属期刊栏目 机器学习与数据挖掘
研究方向 页码范围 1-6
页数 6页 分类号 TU457
字数 4324字 语种 中文
DOI 10.6040/j.issn.1672-3961.0.2016.339
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王峰 河南财经政法大学云计算与大数据研究所 24 43 4.0 6.0
2 刘洋 河南财经政法大学云计算与大数据研究所 25 42 3.0 5.0
3 刘博 华中科技大学计算机学院 21 111 6.0 10.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (191)
共引文献  (1479)
参考文献  (12)
节点文献
引证文献  (12)
同被引文献  (78)
二级引证文献  (3)
1958(1)
  • 参考文献(0)
  • 二级参考文献(1)
1968(1)
  • 参考文献(0)
  • 二级参考文献(1)
1972(1)
  • 参考文献(0)
  • 二级参考文献(1)
1982(1)
  • 参考文献(0)
  • 二级参考文献(1)
1986(1)
  • 参考文献(0)
  • 二级参考文献(1)
1989(2)
  • 参考文献(0)
  • 二级参考文献(2)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(2)
  • 参考文献(0)
  • 二级参考文献(2)
1998(3)
  • 参考文献(0)
  • 二级参考文献(3)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(3)
  • 参考文献(0)
  • 二级参考文献(3)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(9)
  • 参考文献(1)
  • 二级参考文献(8)
2003(6)
  • 参考文献(0)
  • 二级参考文献(6)
2004(6)
  • 参考文献(0)
  • 二级参考文献(6)
2005(5)
  • 参考文献(0)
  • 二级参考文献(5)
2006(9)
  • 参考文献(0)
  • 二级参考文献(9)
2007(8)
  • 参考文献(0)
  • 二级参考文献(8)
2008(6)
  • 参考文献(0)
  • 二级参考文献(6)
2009(12)
  • 参考文献(0)
  • 二级参考文献(12)
2010(19)
  • 参考文献(0)
  • 二级参考文献(19)
2011(25)
  • 参考文献(0)
  • 二级参考文献(25)
2012(17)
  • 参考文献(0)
  • 二级参考文献(17)
2013(30)
  • 参考文献(3)
  • 二级参考文献(27)
2014(21)
  • 参考文献(4)
  • 二级参考文献(17)
2015(5)
  • 参考文献(3)
  • 二级参考文献(2)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(3)
  • 引证文献(3)
  • 二级引证文献(0)
2019(7)
  • 引证文献(6)
  • 二级引证文献(1)
2020(5)
  • 引证文献(3)
  • 二级引证文献(2)
研究主题发展历程
节点文献
大数据
分布式系统
机器学习
样本差异性
优化算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
山东大学学报(工学版)
双月刊
1672-3961
37-1391/T
大16开
济南市经十路17923号
24-221
1956
chi
出版文献量(篇)
3095
总下载数(次)
14
总被引数(次)
24236
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导