基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为进一步提高K-means算法对大规模数据聚类的效率,结合MapReduce计算模型,提出一种先利用Hash函数进行样本抽取,再利用Pam算法获取初始中心的并行聚类方法.通过Hash函数抽取的样本能充分反映数据的统计特性,使用Pam算法获取初始聚类中心,改善了传统聚类算法依赖初始中心的问题.实验结果表明该算法有效提高了聚类质量和执行效率,适用于对大规模数据的聚类分析.
推荐文章
基于数据抽样的自动k-means聚类算法
k-means算法
信息熵
最优样本抽取
有效性指标
大规模多视图数据的自降维K-means算法
大规模数据
多视图
自降维
K-means
信息互补
K-means聚类算法的研究
数据挖掘
K-means算法
初始聚类中心
聚类分析
大规模数据集的多层聚类算法
谱聚类
聚类
图像分割
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 面向大规模数据快速聚类K-means算法的研究
来源期刊 计算机应用与软件 学科 工学
关键词 大规模数据 聚类算法 MapReduce Hash样本抽样 Pam算法
年,卷(期) 2017,(5) 所属期刊栏目 数据工程
研究方向 页码范围 43-47,53
页数 6页 分类号 TP311
字数 5073字 语种 中文
DOI 10.3969/j.issn.1000-386x.2017.05.008
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 林涛 河北工业大学计算机科学与软件学院 65 273 10.0 12.0
2 郭占元 河北工业大学计算机科学与软件学院 1 14 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (71)
共引文献  (140)
参考文献  (7)
节点文献
引证文献  (14)
同被引文献  (48)
二级引证文献  (10)
1985(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(7)
  • 参考文献(0)
  • 二级参考文献(7)
2008(8)
  • 参考文献(0)
  • 二级参考文献(8)
2009(6)
  • 参考文献(0)
  • 二级参考文献(6)
2010(11)
  • 参考文献(0)
  • 二级参考文献(11)
2011(11)
  • 参考文献(0)
  • 二级参考文献(11)
2012(13)
  • 参考文献(2)
  • 二级参考文献(11)
2013(8)
  • 参考文献(2)
  • 二级参考文献(6)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(6)
  • 引证文献(6)
  • 二级引证文献(0)
2019(14)
  • 引证文献(6)
  • 二级引证文献(8)
2020(3)
  • 引证文献(1)
  • 二级引证文献(2)
研究主题发展历程
节点文献
大规模数据
聚类算法
MapReduce
Hash样本抽样
Pam算法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用与软件
月刊
1000-386X
31-1260/TP
大16开
上海市愚园路546号
4-379
1984
chi
出版文献量(篇)
16532
总下载数(次)
47
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导