基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点.文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC-Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点.算法基于网格密度对数据流初始聚类后,随着新数据的到来,使用基于密度阈值函数的噪声点处理策略,周期性检测和删除噪声点,使用基于Hadoop MapReduce框架的并行分析模型周期性地调整已经生成的簇.实验结果表明,PG-DC-Stream对大规模数据流的聚类质量、可伸缩性和实时性都好于CluStream.
推荐文章
一种基于代表点的分布式数据流聚类算法
分布式数据流
数据挖掘
聚类
聚类演化
代表点
分布式数据流中挖掘频繁项算法的研究
分布式数据流
频繁项
多线程并发技术
分布式数据流的渐增式聚集维护算法
数据流
分布式系统
增量聚集
基于滑动窗口的动态数据流聚类算法研究
数据流
滑动窗口
聚类
数据挖掘
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Hadoop MapReduce的分布式数据流聚类算法研究
来源期刊 信息工程大学学报 学科 工学
关键词 数据挖掘 聚类 数据流聚类 分布式聚类 Hadoop MapReduce
年,卷(期) 2014,(4) 所属期刊栏目 计算机技术及应用
研究方向 页码范围 472-478
页数 7页 分类号 TP391
字数 4622字 语种 中文
DOI 10.3969/j.issn.1671-0673.2014.04.015
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 任家东 燕山大学信息科学与工程学院 49 218 9.0 11.0
2 朱世伟 山东省科学院情报研究所 26 148 7.0 11.0
3 郭芹 济南大学泉城学院 9 20 2.0 4.0
4 蔡斌雷 山东省科学院情报研究所 4 10 1.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (15)
共引文献  (68)
参考文献  (2)
节点文献
引证文献  (9)
同被引文献  (68)
二级引证文献  (29)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(2)
  • 参考文献(1)
  • 二级参考文献(1)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2016(5)
  • 引证文献(5)
  • 二级引证文献(0)
2017(7)
  • 引证文献(2)
  • 二级引证文献(5)
2018(6)
  • 引证文献(0)
  • 二级引证文献(6)
2019(14)
  • 引证文献(2)
  • 二级引证文献(12)
2020(6)
  • 引证文献(0)
  • 二级引证文献(6)
研究主题发展历程
节点文献
数据挖掘
聚类
数据流聚类
分布式聚类
Hadoop MapReduce
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
信息工程大学学报
双月刊
1671-0673
41-1196/N
大16开
郑州市科学大道62号
2000
chi
出版文献量(篇)
2792
总下载数(次)
2
总被引数(次)
9088
论文1v1指导