首页 样条变换集成罚函数偏最小二乘方法用于光谱数据重构.doc

样条变换集成罚函数偏最小二乘方法用于光谱数据重构.doc

样条变换集成罚函数偏最小二乘方法用于光谱数据重构.doc样条变换集成罚函数偏最小二乘方法用于光谱数据重构.doc 样条变换集成罚函数偏最小二乘方法用于光谱数据重构【摘要】针对高维小样本光谱数据所显现的函数型数据(Functional data)特性、与性质参数的非线性关系及变量间存有的严重共线性，采用了样条变换集成罚函数偏最小二乘回归新技术。它首先以三次B基样条变换实现非线性光谱数据的线性化重构，随后将重构的新光谱矩阵交由罚函数偏最小二乘法(Penalized PLS)构建其与性质参变量间的校正模型，其中罚函数中的光滑因子由交叉验证优化确定以调控模型的拟合精度。...

样条变换集成罚函数偏最小二乘方法用于光谱数据重构.doc 样条变换集成罚函数偏最小二乘方法用于光谱数据重构【摘要】针对高维小样本光谱数据所显现的函数型数据(Functional data)特性、与性质参数的非线性关系及变量间存有的严重共线性，采用了样条变换集成罚函数偏最小二乘回归新技术。它首先以三次B基样条变换实现非线性光谱数据的线性化重构，随后将重构的新光谱矩阵交由罚函数偏最小二乘法(Penalized PLS)构建其与性质参变量间的校正模型，其中罚函数中的光滑因子由交叉验证优化确定以调控模型的拟合精度。最后，通过小麦样品水分含量的近红外光谱定量分析，结果显示该技术光谱数据重构稳健，去噪明显，并有效解决高维小样本的过拟合和变量间的共线性，而预测集的均方根误差(RMSEP)为0.1808%，方法的非线性校正模型预测能力得到了明显提高。【关键词】样条函数，偏最小二乘, 粗糙惩罚, 近红外光谱, 定量分析, 小麦 1 引言现代光谱以其分析速度快、重现性好、成本低、不消耗样品、易于实现在线分析等特点而得到广泛应用。而光谱化学计量学是近代红外光谱分析技术的重要组成部分，它通过多变量校正技术来进行数据(样本光谱和其性质参数)处理，以获得准确的分析结果[1,2]。考虑到近红外光谱数据通常呈多变量、强相关性，并与样品性质参变量间的非线性关系，适宜选用非线性偏最小二乘法(Non linear PLS，NLPLS)。目前，NLPLS实现方式有3种:一是基于样本矩阵的非线性变换，即在建模自变量中引入某些原始变量的非线性项，如二次项、交叉项等[3];二是将建模变量投影到低维的曲线或曲面上得到非线性特征向量，再建立输入输出特征向量间的非线性关系[4]，但该方法计算复杂，建模受初值影响大;三是保留PLS的线性外部模型，而内部模型采用多项式、样条函数、模糊规则、神经网络、支持向量机等非线性形式[5,9]，该方法缺乏对建模物理变量的直观解释能力。鉴于光谱变量与性质参变量间的具体非线性依存关系不明确，及样本个体光谱数据显现为波长变量的函数型数据(Functional data)特性[10]，本研究采用样条(Spline)变换集成罚函数偏最小二乘(Penalized PLS)回归新技术，记为Spline PPLS方法。首先利用样条基函数将光谱自变量与性质因变量之间的未知非线性关系按照各维自变量与因变量的拟线性关系相加展开[11]。由于样条函数分段拟合、可按需要裁剪以适应任意曲线连续变化的特点，使光谱的重构函数曲线适应光谱数据局部敏感特性的同时保持了函数的光滑性和连续性，从而可削减原始数据中的噪声。随后,考虑到光谱矩阵经样条变换后变量维数显著增加，将重构的新光谱矩阵交由罚函数偏最小二乘法构建其与性质参变量间的定量线性校正模型，其中基于转换权向量二阶导数的罚函数用以调控模型的拟合精度。为考察Spline PPLS方法的有效性及性能，对小麦近红外光谱数据进行了研究。 2 Spline PPLS方法的构建 2.1 B基样条曲线设变量λ与x满足如下随机模型:x=s(λ)，ε， ,(ε),,， ,ar(ε),σ,(,)若λ在区间,a,b,上的一个,段划分π?a=ξ,,ξ,,„,ξ,,b, 则式(1)中s(λ)的三次B基样条逼近曲线方程[11]为:s(λ)=?M+2l=0clΩ3λ,ξl,1h, a?λ?b(2)式中Ω3λ,ξl,1h=13～h3?4k=0(,,)k4 k(λ,ξl+k,,),，，是以ξl+k,,(k=0,1,2,3,4)为内控节点、步长为h的三次B基样条函数，它与x呈线性关系。对于分点ξl,,及其内控节点ξl+k,,位于划分的两侧，本研究取 ξ,,,ξ,,,ξ,,,ξ,和ξ,,ξ,，,,ξ,，,,ξ,，,,,,,。取观测位置λ,, λ2, λ„, λp相应数据点x1, x2, „, xp与它们在样条曲线上插值映射点的距离平方和最小为目标函数，优化求取各基函数的线性加权系数cl(l=0, 1, „, M，,)，即共有,,,，,个基函数，从而完成该序列数据形如式(2)的B基样条逼近曲线构造。 2.2 罚函数偏最小二乘方法(Penalized PLS) 数据点xj(j=1,2,„,p)在B基样条映射的线性空间中的插值映射点zj的分坐标定义为:zj,0=Ω,(λj,ξ,,h), zj,l=Ω3(λj,ξ0h, „，,zj,M+2=Ω3(λj,ξ,，,h)(3)现将样本个体自变量x在p维变量空间中的取值，即x=(x1,x2,„,xp)T，计算其所有插值映射点zj各分坐标并加以组合，即可得到x的B基插值映射点矢量 z，即为z=(z1,0, z1,1, „， z1,,，,, z,,0, z,，1,„， z,，,，,, „， zp,0, zp,1, „，zp,M+2)T(4) 由于每一维变量xj有K个映射分坐标，故矢量z的空间维数将为p×,。对于样本容量n的自变量矩阵Xn×p，欲构建其与性质矢量y间的非线性校正模型，则先实施X的每一样本个体xi(i=1,2,„，n)的B基样条变换(各样本个体选取基函数个数应相同，即K1=K2=„,,n=K)，得到映射样本矩阵Zn×(p×K)，而其与y已演变为拟线性关系。再实施Z与y的线性PLS算法。鉴于Z较X的变量维数显著增加，变量间的相关性更为严重，本研究采用罚函数偏最小二乘(Penalized PLS，PPLS)方法[10]构建 Z与y间的校正模型。PPLS方法的目标函数为 arg max=(Ip+P),,，其中，p为p维单位阵;(3)计算转换权向量ZThy, 并规一化wh=wh/‖wh‖;(4)计算特征向量th=Zhwh，并规一化 th=th/‖th‖;(5)记Th=,t1,t2,„，th,，计算其正交投影矩阵Qh=Th(TThTh)+TTh, 式中“+”为矩阵广义逆;(6)计算剩余矩阵Zh+1=Zh,,hZh;(7)令h=h+1, 重复步骤(3),(7)，直至由交叉验证(Cross validation )法[13] 确定所需提取的最优成分数h后，将得到转换权矩阵SECVspline;再以“样本个体‘留一’交叉验证”选定各变量的光滑因子φ1,φ2,„，φp及校正模型所需PLS最优成分数h，它们的优化评定指标则为式(6)中的RMSECVppls。而光谱B基样条变换的插值重构性能及校正模型的预测性能，则交由测试样本Xntest×p计算，它们的评价指标分别为式(7)中的RMSEPspline和RMSEPppls。RMSECVspline=?pj=1?ntraini=1(xij,ij)2/(ntrain×p), RMSECVppls=?ntraini=1(yi,i)2/ntrain (6) RMSE,spline=?pj=1?ntesti=1(xij,ij)2/(ntest×p), RMSE,ppls=?ntesti=1(yi,i)2/ntest(7)式中xij和ij分别为第i样本个体、第j波长变量下吸光度的实验值和B基样条曲线的插值;yi和i则分别为第i样本个体性质参变量的实验测试值和模型预报值。 3.3 结果与分析 3.3.1 光谱数据的B基样条变换现基于光谱阵Xntest×p，构造它们的,次B基样条逼近曲线，据此完成测试光谱阵Xntest×p的三次B基样条变换。即，先将光谱波长1100,2500 nm作预设的M段划分，再实施Xntrain×p的“变量‘留一’交叉验证”实验，即依次留用一个测量位置(变量)λj的观测数据矢量x?j=[x1j,x2j,„，xntrainj]T作内部验证，而剩余p,,列观测数据用于样条逼近曲线的最小二乘拟合，可得ntrain个样条曲线各K=M+3个基函数的线性加权系数ci,j(l=0,1,„,M+2,i=1,2,„,ntrain), 并据此实现x?j的插值估计?j。最后，将p轮循环得到的所有?j(j=0,1,„,p)代入式(6)，即可计算该M取值下的RMSECVspline。改变M取值，并依据对插值精度RMSECVspline的要求，即可选定所需的基函数个数K。图2 B基样条曲线的基函数个数优化确定及第1训练样本个体的光谱重构结果(略) Fig.2 Selection of basic functions number and the rebuilding spectrum curve for the first sample data a. Root mean squared error at different numbers of basic functions; b. 28 Basic functions and its rebuilding spectrum curve. 图2a显示了RMSECVspline与K的相关关系，随着K的增多，RMSECVspline总体呈下降趋势，在K=28时，RMSECVspline已很小，而其后的RMSECVspline值下降有限。考虑到参数K取值越大，经B基样条变换后的拟线性变量个数将越多，且变量间将出现更多复共线性， B基样条逼近曲线易出现对训练数据的过拟合，而对包含于数据中的噪音削减不够;若K取值太小，B基样条逼近曲线对数据的插值能力将下降。因此，本研究选定K=28。图2b显示了这28个基函数及由它们所重构的第1训练样本个体光谱数据的三次B基样条逼近曲线。由图2b可见，该样条曲线实现了对光谱数据较高精度的插值拟合。另外，将这28个基函数用于Xntest×p的插值重构，其精度指标RMSE,spline，表明B基样条具有极强的插值重构能力。 3.3.2 Spline PPLS方法中参数的选择对于模型而言，预报性能最为重要。影响Spline PPLS模型预报精度的主要因素有:B基样条变换基函数个数K、PPLS模型中各自变量光滑因子φ1,φ2,„，φp及PLS最优成分数h等。其中，K的优选过程见3.3.1节，并将其取值为K=28。而表1则为PPLS方法施于样本阵,,，y,优化选择φ1, φ2, „， φp及h的过程结果。其中，为减少搜索空间维数，将各光滑因子简单取值相同φ=φ1=φ2=„,,φp。表1 PPLS方法中参数的优化选择(略) Table 1 Parameter selection of the penalized PLS method 从表1可见，模型性能指标,,,,,,ppls在参数φ和h的二维搜索格子点φ,,,,,,,， h=5位置达最小，由此选定它们为PPLS模型相应参数的最优取值。同时还发现，该位置,,,,,,ppls指标小于φ,,, h=5的PLS方法的结果。由2.2节PPLS方法的目标函数式(5)可知，φ取值的大小将影响odel coefficients for the PLS and Penalized PLS method 3.3.3 模型精度比较和分析表2为多元线性回归MLR (Multiple linear regression)， PLS， PPLS， Spline PLS及Spline PPLS的建模结果，各方法的参数最优值由交叉验证法[13]确定。另外，Spline PLS和Spline PPLS方法中,,,,。先分析校正方法对模型精度的影响，Spline PLS和Spline PPLS属NLPLS校正方法，它们的RMSECV和RMSEP分别小于同属线性校正的PLS和PPLS方法，但它们提取的PLS最优成分数h均多于后两种线性方法。由此说明，B基样条变换在一定程度上实现了光谱数据与样品性质变量间的内在非线性关系，但需通过增加PLS成分将包含在拟线性化变量项中的非线性信息带入校正模型。而MLR方法未进行光谱数据的噪音削减，以及消除变量间的复共线性，RMSECV和MSSEP值均显著高于其它4种方法。PPLS和Spline PPLS方法的RMSECV和RMSEP值均分别小于未进行粗糙惩罚的PLS和Spline PLS方法的。由此说明，在用于PLS特征向量提取的目标函数中集成转换权向量二阶导数的罚函数，可平滑特征向量和进一步削减噪音，从而使模型的预测能力和稳定性得以提高。表2 5种不同校正模型的性能比较(略) Table 2 parison of model performance for five methods 【

                    本文档为【样条变换集成罚函数偏最小二乘方法用于光谱数据重构&#46;doc】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

样条变换集成罚函数偏最小二乘方法用于光谱数据重构&#46;doc

你可能还喜欢

样条变换集成罚函数偏最小二乘方法用于光谱数据重构.doc