摘要:
近红外光谱具有高维小样本的特点,变量选择是提高定量分析模型稳健性和可解释性的一种有效方法.确定独立筛选(SIS)是一种基于边际相关性的超高维数据变量选择方法,广泛用于基因微阵列数据的变量选择.SIS具有将数据维度降低至样本大小规模的能力,其降维能力与LASSO相当,在相当宽泛的近似条件下,由于具有安全筛选性质,所有重要变量被保留的概率趋于1 .基于确定独立筛选偏最小二乘(SIS‐SPLS)的变量选择是一种迭代式的SIS变量选择方法,首先利用SIS方法完成光谱重要变量的初选;然后根据重要变量的边际相关性大小进行逐步前向选择:建立偏最小二乘回归模型,依据贝叶斯信息准则(BIC )确定最终的变量选择结果.SIS‐SPLS以逐步前向选择的方式实现对重要变量的增量式筛选,随着潜变量个数的增加及因变量残差的逐步减小,SIS‐SPLS方法选择的变量个数将趋于稳定.然而仅以边际相关性对变量重要性进行评价,当光谱变量个数远大于样本数时,该方法也存在选择的变量过多、变量选择结果不够稳健等问题.为进一步提高小样本情况下变量选择的稳健性,将集成学习引入SIS‐SPLS方法之中,提出了一种集成SIS‐SPLS变量选择方法(Ensemble‐SISPLS ) .该方法首先对校正集样本进行自助重采样,对采样得到的每一个校正子集分别使用SIS‐SPLS方法进行变量筛选,通过投票机制并设置频次阈值对所有校正子集的变量选择结果进行集成,选择出现频次大于给定阈值的变量并建立偏最小二乘回归模型,计算5折交叉验证均方根误差.对频次阈值和潜变量个数两个关键参数使用网格搜索法进行优选,根据子模型的交叉验证均方根误差和变量个数对子模型性能进行综合评价,以最优子模型包含的变量作为最终的变量选择结果.分别在Corn数据集和当归数据集上进行变量选择实验,比较Ensemble‐SISPLS ,SIS‐SPLS和UVE‐PLS三种变量选择方法的性能.其中当归数据集共77个样本,样本采自甘肃岷县和渭源县,使用Nicolet‐6700型近红外光谱仪扫描得到所有样本的近红外光谱并对当归中的阿魏酸含量进行预测. Ensemble‐SISPLS方法在Corn数据集上选择的变量个数、 RM SEP和决定系数分别为22 ,0. 000 8和0.999 8 ;SIS‐SPLS 方法在Corn数据集上选择的变量个数、 RM SEP和决定系数分别为97 ,0.007 3和0.998 8 . Ensemble‐SISPLS方法在当归数据集上选择的变量个数、RM SEP和决定系数分别为24 ,0. 018 1和0.996 3 ;SIS‐SPLS方法在当归数据集上选择的变量个数、 RMSEP和决定系数分别为38 ,0. 022 6和0. 994 3 .结果表明,该方法进一步提高了变量选择结果的稳健性和预测能力.Ensemble‐SISPLS变量选择方法有效结合了SIS‐SPLS较强的变量选择能力和集成学习良好的泛化能力,提高了变量选择的稳健性.此外,由于在子模型的预测能力和变量个数之间进行了折中,一定程度上减少了选择变量的个数,提高了模型的可解释性.