基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
近红外光谱具有高维小样本的特点,变量选择是提高定量分析模型稳健性和可解释性的一种有效方法.确定独立筛选(SIS)是一种基于边际相关性的超高维数据变量选择方法,广泛用于基因微阵列数据的变量选择.SIS具有将数据维度降低至样本大小规模的能力,其降维能力与LASSO相当,在相当宽泛的近似条件下,由于具有安全筛选性质,所有重要变量被保留的概率趋于1 .基于确定独立筛选偏最小二乘(SIS‐SPLS)的变量选择是一种迭代式的SIS变量选择方法,首先利用SIS方法完成光谱重要变量的初选;然后根据重要变量的边际相关性大小进行逐步前向选择:建立偏最小二乘回归模型,依据贝叶斯信息准则(BIC )确定最终的变量选择结果.SIS‐SPLS以逐步前向选择的方式实现对重要变量的增量式筛选,随着潜变量个数的增加及因变量残差的逐步减小,SIS‐SPLS方法选择的变量个数将趋于稳定.然而仅以边际相关性对变量重要性进行评价,当光谱变量个数远大于样本数时,该方法也存在选择的变量过多、变量选择结果不够稳健等问题.为进一步提高小样本情况下变量选择的稳健性,将集成学习引入SIS‐SPLS方法之中,提出了一种集成SIS‐SPLS变量选择方法(Ensemble‐SISPLS ) .该方法首先对校正集样本进行自助重采样,对采样得到的每一个校正子集分别使用SIS‐SPLS方法进行变量筛选,通过投票机制并设置频次阈值对所有校正子集的变量选择结果进行集成,选择出现频次大于给定阈值的变量并建立偏最小二乘回归模型,计算5折交叉验证均方根误差.对频次阈值和潜变量个数两个关键参数使用网格搜索法进行优选,根据子模型的交叉验证均方根误差和变量个数对子模型性能进行综合评价,以最优子模型包含的变量作为最终的变量选择结果.分别在Corn数据集和当归数据集上进行变量选择实验,比较Ensemble‐SISPLS ,SIS‐SPLS和UVE‐PLS三种变量选择方法的性能.其中当归数据集共77个样本,样本采自甘肃岷县和渭源县,使用Nicolet‐6700型近红外光谱仪扫描得到所有样本的近红外光谱并对当归中的阿魏酸含量进行预测. Ensemble‐SISPLS方法在Corn数据集上选择的变量个数、 RM SEP和决定系数分别为22 ,0. 000 8和0.999 8 ;SIS‐SPLS 方法在Corn数据集上选择的变量个数、 RM SEP和决定系数分别为97 ,0.007 3和0.998 8 . Ensemble‐SISPLS方法在当归数据集上选择的变量个数、RM SEP和决定系数分别为24 ,0. 018 1和0.996 3 ;SIS‐SPLS方法在当归数据集上选择的变量个数、 RMSEP和决定系数分别为38 ,0. 022 6和0. 994 3 .结果表明,该方法进一步提高了变量选择结果的稳健性和预测能力.Ensemble‐SISPLS变量选择方法有效结合了SIS‐SPLS较强的变量选择能力和集成学习良好的泛化能力,提高了变量选择的稳健性.此外,由于在子模型的预测能力和变量个数之间进行了折中,一定程度上减少了选择变量的个数,提高了模型的可解释性.
推荐文章
基于变量选择的蚕茧茧层量可见-近红外光谱无损检测
近红外光谱
无损检测
模型分析
蚕茧
茧层量
无信息变量消除算法(UVE)
连续投影算法(SPA)
基于变量选择的小麦粗蛋白含量近红外光谱检测
小麦
粗蛋白
近红外光谱
变量选择
基于变量选择的堆肥胡敏酸含量近红外光谱分析
堆肥
品质控制
腐熟度评价
胡敏酸
近红外光谱
小波变换
基于可见-近红外光谱变量选择的土壤全氮含量估测研究
土壤全氮
无信息变量消除(UVE)
连续投影(SPA)
偏最小二乘回归(PLSR)
最小二乘支持向量机(LS-SVM)
遗传算法优化的反向传播神经网络(GA-BPNN)
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Ensemble‐SISPLS近红外光谱变量选择方法
来源期刊 光谱学与光谱分析 学科 工学
关键词 近红外光谱 变量选择 确定独立筛选 偏最小二乘 集成学习
年,卷(期) 2019,(4) 所属期刊栏目
研究方向 页码范围 1047-1052
页数 6页 分类号 TP391.4
字数 3460字 语种 中文
DOI 10.3964/j.issn.1000‐0593(2019)04‐1047‐06
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李四海 甘肃中医药大学信息工程学院 33 80 6.0 7.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (2)
节点文献
引证文献  (1)
同被引文献  (17)
二级引证文献  (1)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
近红外光谱
变量选择
确定独立筛选
偏最小二乘
集成学习
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
光谱学与光谱分析
月刊
1000-0593
11-2200/O4
大16开
北京市海淀区学院南路76号钢铁研究总院
82-68
1981
chi
出版文献量(篇)
13956
总下载数(次)
19
总被引数(次)
127726
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导