随着计算机技术的飞速发展,各个领域的数据量呈指数上升,如何处理大体量的数据以保证数据的质量和可用性是机器学习建模过程中不可缺少的一部分。作为建模的首要部分,数据预处理技术的精度直接影响算法的性能。在已有研究的基础上提出了一种新颖的数据预处理方法,将数据预处理过程的不同方面集成到一起,构造出基于集成的数据预处理方法,最后在UCI数据库中(UCI数据库是加州大学欧文分校University of California Irvine提出的用于机器学习的数据库)3个经典数据集的基础上进行实证研究,并使用决策树、支持向量机、神经网络这3种机器学习算法来验证集成数据预处理技术的可行性和提高预测性能的有效性。