面向文本数据建模时,交叉验证方法是特征选择及模型比较任务中的常用方法.许多研究表明,文本数据模型的性能估计对交叉验证的数据切分方式较为敏感,不合理的切分方式可能会导致不稳定的性能估计值,使得实验结果可复现性差.该文试图论证基于多次重复(m次)的2折交叉验证,通过引入对训练集、验证集分布差异的约束,所构造的正则化m×2交叉验证方法(简记为m×2 BCV)可以改善模型的性能指标的估计,适宜于模型比较.该文首先针对文本数据引入训练集与验证集分布差异的卡方度量,基于该度量构建数据切分的正则化条件,以最大化模型性能指标的信噪比为目标,给出了满足正则化条件的m×2 BC V的数据切分优化算法.最后,以自然语言处理中汉语框架语义角色标注任务为例,验证了基于m×2 BC V方法的有效性.