结合Rough Set理论研究了分布式处理海量数据中的关键同题,即分割海量数据集的问题.经典的Rough Set算法要求数据常驻内存,因此不能有效地处理海量数据.为了能够直接处理海量数据集,根据最佳分割的定义,结合属性约简的思想,提出基于属性约简的粗糙集海量数据分割算法(Mass Data Partition for Rough Set on Attribute Reduction,MDPRS-AR).通过实验表明,MDPRS-AR算法的分割效率比传统的算法约高70%,而且与处理整个数据集的算法相比,正确性损失不大.