实际生活中,经常会遇到大规模数据的分类问题,传统 k-近邻 k-NN(k-Nearest Neighbor)分类方法需要遍历整个训练样本集,因此分类效率较低,无法处理具有大规模训练集的分类任务。针对这个问题,提出一种基于聚类的加速 k-NN 分类方法 C_k-NN(Speeding k-NN Classification Method Based on Clustering)。该方法首先对训练样本进行聚类,得到初始聚类结果,并计算每个类的聚类中心,选择与聚类中心相似度最高的训练样本构成新的训练样本集,然后针对每个测试样本,计算新训练样本集中与其相似度最高的 k 个样本,并选择该 k 个近邻样本中最多的类别标签作为该测试样本的预测模式类别。实验结果表明,C_k-NN 分类方法在保持较高分类精度的同时大幅度提高模型的分类效率。