基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着大数据时代的到来,大规模多标签数据挖掘方法受到广泛关注.多标签最近邻算法ML-KNN是一种简单高效、应用广泛的多标签分类方法,其分类精度在很多应用中都高于其他常见的多标签学习方法.然而随着需要处理的数据规模越来越大,传统串行ML-KNN算法已经难以满足大数据应用中时间和存储空间上的限制.结合Spark的并行机制和其基于内存的迭代计算特点,提出了一种基于Spark并行框架的ML-KNN算法SML-KNN.在Map阶段分别找到待预测样本每个分区的K近邻,随后Reduce阶段根据每个分区的近邻集合确定最终的K近邻,最后并行地对近邻的标签集合进行聚合,通过最大化后验概率准则输出待预测样本的目标标签集合.串行和并行环境下的对比实验结果表明,SML-KNN在保证分类精度的前提下性能与计算资源呈近似线性关系,提高了ML-KNN算法对大规模多标签数据的处理能力.
推荐文章
基于多K最近邻回归算法的软测量模型
多K最近邻
高斯过程
K最近邻
软测量模型
自适应仿射传播聚类
主元回归
基于最近邻距离权重的ML-KNN算法
多标签分类
ML-KNN
聚类
最近邻
距离权重
基于Spark的并行Eclat算法
关联规则挖掘
大数据
Spark
投影树
并行化
稀疏编码的最近邻填充算法
缺失值填充
稀疏编码
重构
均方根误差
相关系数
数据预处理
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Spark下的并行多标签最近邻算法
来源期刊 计算机工程与科学 学科 工学
关键词 多标签学习 多标签最近邻算法 Spark 并行
年,卷(期) 2017,(2) 所属期刊栏目 高性能计算
研究方向 页码范围 227-235
页数 9页 分类号 TP181
字数 6676字 语种 中文
DOI 10.3969/j.issn.1007-130X.2017.02.002
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王进 重庆邮电大学计算智能重庆市重点实验室 50 202 8.0 12.0
2 陈乔松 重庆邮电大学计算智能重庆市重点实验室 16 66 4.0 7.0
3 邓欣 重庆邮电大学计算智能重庆市重点实验室 21 58 4.0 6.0
4 王鸿 重庆邮电大学计算智能重庆市重点实验室 3 7 2.0 2.0
5 欧阳卫华 重庆邮电大学计算智能重庆市重点实验室 5 10 2.0 3.0
6 夏翠萍 重庆邮电大学计算智能重庆市重点实验室 2 4 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (8)
节点文献
引证文献  (2)
同被引文献  (1)
二级引证文献  (0)
2000(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(2)
  • 参考文献(2)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
多标签学习
多标签最近邻算法
Spark
并行
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与科学
月刊
1007-130X
43-1258/TP
大16开
湖南省长沙市开福区德雅路109号国防科技大学计算机学院
42-153
1973
chi
出版文献量(篇)
8622
总下载数(次)
11
总被引数(次)
59030
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导