Spark下分布式深度信念网络(Distributed Deep Belief Network,DDBN)存在数据倾斜、缺乏细粒度数据置换、无法自动缓存重用度高的数据等问题,导致了DDBN计算复杂高、运行时效性低的缺陷.为了提高DDBN的时效性,提出一种Spark下DDBN数据并行加速策略,其中包含基于标签集的范围分区(Label Set based on RangePartition,LSRP)算法和基于权重的缓存替换(Cache Replacement based on Weight,CRW)算法.通过LSRP算法解决数据倾斜问题,采用CRW算法解决RDD(Resilient Distributed Datasets)重复利用以及缓存数据过多造成内存空间不足问题.结果表明:与传统DBN相比,DDBN训练速度提高约2.3倍,通过LSRP和CRW大幅提高了DDBN分布式并行度.