原文服务方: 计算机应用研究       
摘要:
针对现有大数据分类方法难以满足大数据应用中时间和储存空间的限制,提出了一种基于Apache Spark框架的大数据并行多标签K最近邻分类器设计方法.为了通过使用其他内存操作来减轻现有MapReduce方案的成本消耗,首先,结合Apache Spark框架的并行机制将训练集划分成若干分区;然后在map阶段找到待预测样本每个分区的K近邻,进一步在reduce阶段根据map阶段的结果确定最终的K近邻;最后并行地对近邻的标签集合进行聚合,通过最大化后验概率输出待预测样本的目标标签集合.在PokerHand等四个大数据分类数据集上进行实验,该方法取得了较低的汉明损失,证明了其有效性.
推荐文章
大数据下的分布式精确模糊KNN分类算法
大数据
分布式Spark框架
类隶属度
模糊KNN算法
大数据下的分布式精确模糊KNN分类算法
大数据
分布式Spark框架
类隶属度
模糊KNN算法
Spark框架下利用分布式NBC的大数据文本分类方法
文本分类
MapReduce
Spark框架
分布式
朴素贝叶斯分类器
机器学习
Spark框架下利用分布式NBC的大数据文本分类方法
文本分类
MapReduce
Spark框架
分布式
朴素贝叶斯分类器
机器学习
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Spark框架结合分布式KNN分类器的网络大数据分类处理方法
来源期刊 计算机应用研究 学科
关键词 分类处理 Apache Spark 并行机制 数据挖掘 汉明损失 K最近邻
年,卷(期) 2019,(11) 所属期刊栏目 算法研究探讨
研究方向 页码范围 3274-3277,3333
页数 5页 分类号 TP391
字数 语种 中文
DOI 10.19734/j.issn.1001-3695.2018.05.0296
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王楠 吉林财经大学管信学院 73 329 11.0 15.0
5 徐志超 吉林财经大学管信学院 6 10 2.0 3.0
6 曹瑜 哈尔滨金融学院计算机系 7 6 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (52)
共引文献  (21)
参考文献  (10)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1964(1)
  • 参考文献(0)
  • 二级参考文献(1)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1978(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(4)
  • 参考文献(0)
  • 二级参考文献(4)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(3)
  • 参考文献(0)
  • 二级参考文献(3)
2011(5)
  • 参考文献(0)
  • 二级参考文献(5)
2012(3)
  • 参考文献(1)
  • 二级参考文献(2)
2013(4)
  • 参考文献(0)
  • 二级参考文献(4)
2014(12)
  • 参考文献(2)
  • 二级参考文献(10)
2015(7)
  • 参考文献(1)
  • 二级参考文献(6)
2016(5)
  • 参考文献(2)
  • 二级参考文献(3)
2017(5)
  • 参考文献(3)
  • 二级参考文献(2)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
分类处理
Apache Spark
并行机制
数据挖掘
汉明损失
K最近邻
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导