作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
数据的快速增长,为我们提供了更多的信息,然而,也对传统信息获取技术提出了挑战.这篇论文提出了MCMM算法,它是基于MapReduce的大规模数据分类模型的最小生成树(MST)的算法.它可以看做是介于传统的KNN方法和基于聚类分类方法之间的模型,旨在克服这两种方法的不足并能处理大规模的数据.在这一模型中,训练集作为有权重的无向完全图来处理.顶点是对象,两点之间边的权重是对象间的距离.这一距离,不同于欧几里得距离,它是一个特定的距离度量.这样,可以找到图中最小生成树集,其中,图中每棵树代表一个类.为了降低时间复杂度,提取了每棵树中最具代表性的点来代表该树.这些压缩了的点集,可以通过计算无标签对象和它们之间的距离,来进行分类.MCMM模型基于MapReduce实现并且部署在Hadoop平台.该模型可扩展处理大规模的数据,是因为Hadoop支持数据密集分布应用,并且这些应用可以和数以千计的节点和数据一起运作.另外,MapReduce和Hadoop能在由商品机组成的集群上很好的运行.MCMM模型使用云平台并且通过使用MapReduce和Hadoop进行云计算是有益处的.实验采用的数据集包括从UCI数据库得到的真实数据和一些模拟数据,实验使用了4000个集群.实验表明,MCMM模型在精确度和扩展性上优于KNN和其他一些经常使用的基础分类方法.
推荐文章
基于局部差异最小生成树脑网络的抑郁症分类研究
局部差异网络
最小生成树
抑郁症
脑网络
机器学习
分类
基于GPU的并行最小生成树算法的设计与实现
图形处理器
图论
最小生成树
Prim算法
数据并行原语
基于最小生成树的多特征融合的脑网络分类研究
最小生成树
多特征融合
抑郁症
分类
脑网络
基于降阶的最小生成树快速算法
最小生成树
算法
降阶
悬挂点
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于最小生成树的大规模数据分类模型及其MapReduce实现
来源期刊 集成技术 学科
关键词 最小生成树 分类 MapReduce 云计算 图挖掘
年,卷(期) 2013,(2) 所属期刊栏目 云计算与数据挖掘
研究方向 页码范围 69-82
页数 14页 分类号
字数 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 黄鑫 中国科学院深圳先进技术研究院 38 556 15.0 23.0
5 罗军 中国科学院深圳先进技术研究院 51 222 8.0 12.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (9)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
1956(1)
  • 参考文献(1)
  • 二级参考文献(0)
1967(1)
  • 参考文献(1)
  • 二级参考文献(0)
1969(1)
  • 参考文献(1)
  • 二级参考文献(0)
1980(1)
  • 参考文献(1)
  • 二级参考文献(0)
1986(1)
  • 参考文献(1)
  • 二级参考文献(0)
1995(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
最小生成树
分类
MapReduce
云计算
图挖掘
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
集成技术
双月刊
2095-3135
44-1691/T
大16开
深圳市南山区西丽深圳大学城学苑大道1068号
2012
chi
出版文献量(篇)
677
总下载数(次)
2
总被引数(次)
1808
论文1v1指导