使用Hadoop构建的云平台已经得到广泛使用,如Amazon、Yahoo、Facebook等。集群的稳定性和可靠性对于云平台的服务质量有着重要的影响,随着企业信息化在生产实时检测、海量存储和科学分析决策等方面的需求不断提升,集群故障监控也越来越重要。PDM(Integrated Paral el Mining)是中国移动的商务智能应用需求为背景,旨在针对海量数据提供高效、准确、便捷的数据分析服务,能够对Hadoop集群进行性能监控并且进行故障告警是非常重要的。Ganglia和Nagios在集群故障监控方面各有优势,将两者的优势结合,结合企业项目设计出了一个相对完整的集群故障监控平台。