基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
数据分块数的选择是并行/分布式机器学习模型选择的基本问题之一,直接影响着机器学习算法的泛化性和运行效率.现有并行/分布式机器学习方法往往根据经验或处理器个数来选择数据分块数,没有明确的数据分块数选择准则.提出一个并行效率敏感的并行/分布式机器学习数据分块数选择准则,该准则可在保证并行/分布式机器学习模型测试精度的情况下,提高计算效率.首先推导并行/分布式机器学习模型的泛化误差与分块数目的关系.然后以此为基础,提出折衷泛化性与并行效率的数据分块数选择准则.最后,在ADMM框架下随机傅里叶特征空间中,给出采用该数据分块数选择准则的大规模支持向量机实现方案,并在高性能计算集群和大规模标准数据集上对所提出的数据分块数选择准则的有效性进行实验验证.
推荐文章
大规模DEM数据并行可视域分析算法研究
DEM
环形扫描线
可视域分析
计算效率
用LDLT并行分解优化大规模SVM的训练效率
大规模支持向量机
路径跟踪内点法
矩阵
LDLT
并行分解
基于参考点的大规模本体分块与映射
大规模本体
本体映射
参考点
联合分块
块映射
用并行计算从基因表达数据构建大规模基因调控网络
基因调控网络
大规模数据集
并行计算
阈值限定
基因表达数据
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 并行效率敏感的大规模SVM数据分块数选择
来源期刊 数据采集与处理 学科 工学
关键词 大规模支持向量机 模型选择 数据分块 交替方向乘子法 随机傅里叶特征
年,卷(期) 2018,(6) 所属期刊栏目
研究方向 页码范围 1068-1076
页数 9页 分类号 TP181
字数 5362字 语种 中文
DOI 10.16337/j.1004-9037.2018.06.015
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 廖士中 天津大学计算机科学与技术学院 40 162 9.0 10.0
2 张闯 天津大学计算机科学与技术学院 3 5 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (32)
共引文献  (12)
参考文献  (9)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1970(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(3)
  • 参考文献(0)
  • 二级参考文献(3)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(2)
  • 参考文献(1)
  • 二级参考文献(1)
2005(2)
  • 参考文献(1)
  • 二级参考文献(1)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(7)
  • 参考文献(1)
  • 二级参考文献(6)
2012(2)
  • 参考文献(1)
  • 二级参考文献(1)
2013(1)
  • 参考文献(0)
  • 二级参考文献(1)
2014(2)
  • 参考文献(0)
  • 二级参考文献(2)
2016(5)
  • 参考文献(3)
  • 二级参考文献(2)
2017(2)
  • 参考文献(2)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
大规模支持向量机
模型选择
数据分块
交替方向乘子法
随机傅里叶特征
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
数据采集与处理
双月刊
1004-9037
32-1367/TN
大16开
南京市御道街29号1016信箱
28-235
1986
chi
出版文献量(篇)
3235
总下载数(次)
7
总被引数(次)
25271
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导