为了提高流数据聚类效率,文中基于经典流聚类算法CluStream的思想和Storm的计算架构,设计了一种分布式实时流聚类算法(distributed real time clustering algorithm for stream data,DRCluStream).该算法运用滑动时间窗口机制实现多粒度的数据存储;将流数据的在线微聚类部分拆分成局部和全局两个部分做分布式计算,第一部分由多个线程并行进行微簇的局部增量更新,第二部分合并微簇的局部增量结果来更新全局微簇.还设计了DRCluStream算法基于Storm的实现方案,通过使用消息中间件Kafka和合理部署Storm的拓扑对DRCluStream算法进行实现.性能分析及实验结果表明:DRCluStream算法的聚类精度与K-Means相近,且随着local节点(local bolt线程)的增加聚类精度保持稳定,而计算效率呈近线性提升.