随着智能电网、全球能源互联网的建设与相关技术的发展,现代电力系统中电力大数据的格局已经形成,如何对高维海量数据进行深度挖掘以实现数据的充分利用,成为当前电力工作者们关心的问题.该文针对电力大数据环境下高精度和实时性的负荷预测展开了研究,提出了基于Spark平台和并行随机森林回归算法(Spark platform and parallel random forest regression,SP-RFR)的短期电力负荷预测方法,通过3次弹性分布式数据集(resilient distributed datasets,RDD)转换实现单机随机森林算法的并行化改进,并在Spark分布式集群环境下实现部署.结合某区域实际电力负荷数据设计试验,进行模型训练和回归预测,通过试验证明,对同等的数据集,基于Spark平台的并行随机森林回归算法预测精度高于单机负荷预测算法;并行随机森林算法受离群数据干扰较小,且随着数据集的增大,并行随机森林算法表现出良好的鲁棒性;与单机算法在运行时间上相比,随着数据集的增大,基于分布式集群的方法优势明显.该文提出的方法能够有效地在分布式环境中进行电力负荷预测,为负荷预测提供了一种新思路.