关闭

关闭

关闭

封号提示

内容

首页 第12章 回归分析.pdf

第12章 回归分析.pdf

第12章 回归分析.pdf

上传者: Gingerjin 2012-07-26 评分 0 0 0 0 0 0 暂无简介 简介 举报

简介:本文档为《第12章 回归分析pdf》,可适用于工程科技领域,主题内容包含第十二章回归分析前面我们讲过曲线拟合问题。曲线拟合问题的特点是根据得到的若干有关变量的一组数据寻找因变量与(一个或几个)自变量之间的一个函数使这个函符等。

第十二章回归分析前面我们讲过曲线拟合问题。曲线拟合问题的特点是根据得到的若干有关变量的一组数据寻找因变量与(一个或几个)自变量之间的一个函数使这个函数对那组数据拟合得最好。通常函数的形式可以由经验、先验知识或对数据的直观观察决定要作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看问题似乎已经完全解决了还有进一步研究的必要吗从数理统计的观点看这里涉及的都是随机变量我们根据一个样本计算出的那些系数只是它们的一个(点)估计应该对它们作区间估计或假设检验如果置信区间太大甚至包含了零点那么系数的估计值是没有多大意义的。另外也可以用方差分析方法对模型的误差进行分析对拟合的优劣给出评价。简单地说回归分析就是对拟合问题作的统计分析。具体地说回归分析在一组数据的基础上研究这样几个问题:(i)建立因变量y与自变量mxxx,,,L之间的回归模型(经验公式)(ii)对回归模型的可信度进行检验(iii)判断每个自变量),,,(mixiL=对y的影响是否显著(iv)诊断回归模型是否适合这组数据(v)利用回归模型对y进行预报或控制。数据表的基础知识样本空间在本章中我们所涉及的均是样本点变量类型的数据表。如果有m个变量mxxx,,,L对它们分别进行了n次采样(或观测)得到n个样本点),,,(imiixxxLni,,,L=则所构成的数据表X可以写成一个mn维的矩阵。==TnTmnijeexXM)(式中mTimiiiRxxxe=),,,(Lni,,,L=ie被称为第i个样本点。样本的均值为),,,(mxxxxL===niijjxnxmj,,,L=样本协方差矩阵及样本相关系数矩阵分别为TknkkmmijxexensS)()()(=====jjiiijmmijsssrR)(其中==nkjkjikiijxxxxns))((数据的标准化处理()数据的中心化处理数据的中心化处理是指平移变换即jijijxxx=*ni,,,L=mj,,,L=该变换可以使样本的均值变为而这样的变换既不改变样本点间的相互位置也不改变变量间的相关性。但变换后却常常有许多技术上的便利。()数据的无量纲化处理在实际问题中不同变量的测量单位往往是不一样的。为了消除变量的量纲效应使每个变量都具有同等的表现力数据分析中常用的消量纲的方法是对不同的变量进行所谓的压缩处理即使每个变量的方差均变成即jijijsxx*=其中==nijijjxxns)(。还可以有其它消量纲的方法如}{max*ijiijijxxx=}{min*ijiijijxxx=jijijxxx*=}){min}{max(*ijiijiijijxxxx=()标准化处理所谓对数据的标准化处理是指对数据同时进行中心化-压缩处理即jjijijsxxx=*ni,,,L=mj,,,L=。一元线性回归模型一元线性回归的模型为εββ=xy()式中,ββ为回归系数ε是随机误差项总是假设),(~σεN则随机变量),(~σββxNy。若对y和x分别进行了n次独立观测得到以下n对观测值),(iixyni,,,L=()这n对观测值之间的关系符合模型iixyεββ=ni,,,L=()这里ix是自变量在第i次观测时的取值它是一个非随机变量并且没有测量误差。对应于ixiy是一个随机变量它的随机性是由iε造成的。),(~σεNi对于不同的观测当ji时iε与jε是相互独立的。最小二乘估计方法最小二乘法用最小二乘法估计,ββ的值即取,ββ的一组估计值ˆ,ˆββ使iy与xyiˆˆˆββ=的误差平方和达到最小。若记==niiixyQ)(),(ββββ则===niiixyQQ,)ˆˆ(),(min)ˆ,ˆ(ββββββββ显然),(ββQ且关于,ββ可微则由多元函数存在极值的必要条件得)(===niiixyQβββ)(===niiiixyxQβββ整理后得到下面的方程组=======niiiniiniiniiniiyxxxyxnββββ()此方程组称为正规方程组求解可以得到====xyxxyyxxniiniiiˆˆ)())((ˆβββ()称ˆ,ˆββ为,ββ的最小二乘估计其中yx,分别是ix与iy的样本均值即==niixnx==niiyny关于β的计算公式还有一个更直观的表示方法即===niiniiixxyyxx)())((βˆ======niiniiniiiniiniiyyxxyyxxxxyy)()())(()()(xyxyrss=式中==niixxxns)(==niiyyyns)(xyr是x与y的样本相关系数。显然当iiyx,都是标准化数据时则有=x=y=xs=ys。所以有ˆ=βxyr=ˆβ回归方程为xryxy=ˆ由上可知对标准化数据ˆβ可以表示y与x的相关程度。ˆ,ˆββ的性质作为一个随机变量ˆβ有以下性质。.ˆβ是iy的线性组合它可以写成==niiiykˆβ()式中ik是固定的常量==niiiixxxxk)(。证明事实上=======niininiiiiniiniiixxxxyyxxxxyyxx)()()()())((βˆ由于)()(===xnxnyxxynii所以ininiiiyxxxx===)(βˆ.因为ˆβ是随机变量),,,(niyiL=的线性组合而iy是相互独立、且服从正态分布的所以ˆβ的抽样分布也服从正态分布。.点估计量ˆβ是总体参数β的无偏估计有====niiiniiiyEkykEE)()ˆ(β=====niiiniiiniixkkxEk)(ββββ由于)(=====niniiiniixxxxk)())(()(========niiniiiininiiiiniixxxxxxxxxxxxk所以)ˆ(ββ=E.估计量ˆβ的方差为==niixx)()ˆ(Varσβ()这是因为========niiniiniiiniiikkykyk)(VarVar)ˆ(Varσσβ由于=========niiniiniininiiiniixxxxxxxxxxk)()()())((因此式()得证。.对于总体模型中的参数β在它的所有线性无偏估计量中最小二乘估计量ˆβ具有最小的方差。记任意一个线性估计量==niiiyc~β式中ic是任意常数ic不全为零ni,,,L=。要求~β是β的无偏估计量即)()~(ββ===niiiyEcE另一方面由于iixyE)(ββ=所以又可以写成=====niiiniiniiixccxcE)()~(βββββ为保证无偏性ic要满足下列限制==niic==niiixc定义iiidkc=其中ik是式()中的组合系数id是任意常数则======niiiniiniiniidkdkc)~(Varσσβ由于=======niniiniiiiniiiiniiikxxxxckckdk)()()()()(=========niiniiniiniiniiniiixxxxkxxcxxc而)ˆ(Var)(βσσ====niiniixxk所以==niid)ˆ(Var)~(Varσββ=niid的最小值为零所以当==niid时~β的方差最小。但是只有当id时即iikc时才有==niid。所以最小二乘估计量ˆβ在所有无偏估计量中具有最小的方差。同理可以得出相应于点估计量βˆ的统计性质。对于一元线性正态误差回归模型来说最小二乘估计量βˆ是iy的线性组合所以它的抽样分布也是正态的。它是总体参数β的无偏估计量即)ˆ(ββ=E同样可以证明)()ˆ(==niixxxnVarσβ()且βˆ是β的线性无偏的最小方差估计量。其它性质用最小二乘法拟合的回归方程还有一些值得注意的性质:.残差和为零。残差iiiyyeˆ=ni,,,L=由第一个正规方程得)ˆˆ(====niiniixyeββ().拟合值iyˆ的平均值等于观测值iy的平均值即yynynniinii====ˆ()按照第一正规方程有)ˆˆ(==niiixyββ所以=====niiniiniiyxyˆ)ˆˆ(ββ.当第i次试验的残差以相应的自变量取值为权重时其加权残差和为零即==niiiex()这个结论由第二个正规方程)ˆˆ(==niiiixyxββ即可得出。.当第i次试验的残差以相应的因变量的拟合值为权重时其加权残差和为零即ˆ==iniiey()这是因为ˆˆ)ˆˆ(=====niiiniiniiiexeexββββ.最小二乘回归线总是通过观测数据的重心),(yx的。事实上当自变量取值为x时由式()xyˆˆββ=所以yxxyxy===ˆ)ˆ(ˆˆˆββββ拟合效果分析当根据一组观测数据得到最小二乘拟合方程后必须考察一下是否真的能由所得的模型(iixyˆˆˆββ=)来较好地拟合观测值iy?用iixyˆˆˆββ=能否较好地反映(或者说解释)iy值的取值变化?回归方程的质量如何?误差多大?对这些都必须予以正确的评估和分析。残差的样本方差记残差iiiyyeˆ=ni,,,L=残差的样本均值为)ˆ(===niiiyyne残差的样本方差为======niiiniiniiyyneneenMSE)ˆ()(由于有==niie和==niiiex的约束所以残差平方和有)(n个自由度。可以证明在对=niie除以其自由度)(n后得到的MSE是总体回归模型中)(iVarεσ=的无偏估计量。记===niieenMSES()一个好的拟合方程其残差总和应越小越好。残差越小拟合值与观测值越接近各观测点在拟合直线周围聚集的紧密程度越高也就是说拟合方程xyˆˆˆββ=解释y的能力越强。另外当eS越小时还说明残差值ie的变异程度越小。由于残差的样本均值为零所以其离散范围越小拟合的模型就越为精确。判定系数(拟合优度)对应于不同的ix值观测值iy的取值是不同的。建立一元线性回归模型的目的就是试图以x的线性函数(xˆˆββ)来解释y的变异。那么回归模型xyˆˆˆββ=究竟能以多大的精度来解释y的变异呢?又有多大部分是无法用这个回归方程来解释的呢?nyyy,,,L的变异程度可采用样本方差来测度即==niiyyns)(根据式()拟合值nyyyˆ,,ˆ,ˆL的均值也是y其变异程度可以用下式测度==niiyyns)ˆ(ˆ下面看一下s与sˆ之间的关系有=====niiiiniiniiiniiyyyyyyyyyy)ˆ)(ˆ()ˆ()ˆ()(由于===niiiiniiiiyxxyyyyy)ˆˆ)(ˆˆ()ˆ)(ˆ(ββββ)ˆˆ()ˆˆ(ˆ)ˆˆ(ˆ=====niiiniiiiniiixyyxyxxyββββββββ因此得到正交分解式为====niiiniiniiyyyyyy)ˆ()ˆ()(()记==niiyySST)(这是原始数据iy的总变异平方和其自由度为=ndfT==niiyySSR)ˆ(这是用拟合直线iixyˆˆˆββ=可解释的变异平方和其自由度为=Rdf==niiiyySSE)ˆ(这是残差平方和其的自由度为=ndfE。所以有SSESSRSST=ERTdfdfdf=从上式可以看出y的变异是由两方面的原因引起的一是由于x的取值不同而给y带来的系统性变异另一个是由除x以外的其它因素的影响。注意到对于一个确定的样本(一组实现的观测值)SST是一个定值。所以可解释变异SSR越大则必然有残差SSE越小。这个分解式可同时从两个方面说明拟合方程的优良程度:()SSR越大用回归方程来解释iy变异的部分越大回归方程对原数据解释得越好()SSE越小观测值iy绕回归直线越紧密回归方程对原数据的拟合效果越好。因此可以定义一个测量标准来说明回归方程对原始数据的拟合程度这就是所谓的判定系数有些文献上也称之为拟合优度。判定系数是指可解释的变异占总变异的百分比用R表示有)(SSTSSESSTSSRR==()从判定系数的定义看R有以下简单性质:()R()当=R时有SSTSSR=也就是说此时原数据的总变异完全可以由拟合值的变异来解释并且残差为零(=SSE)即拟合点与原数据完全吻合()当=R时回归方程完全不能解释原数据的总变异y的变异完全由与x无关的因素引起这时SSTSSE=。测定系数时一个很有趣的指标:一方面它可以从数据变异的角度指出可解释的变异占总变异的百分比从而说明回归直线拟合的优良程度另一方面它还可以从相关性的角度说明原因变量y与拟合变量yˆ的相关程度从这个角度看拟合变量yˆ与原变量y的相关度越大拟合直线的优良度就越高。看下面的式子)ˆ,()ˆ()()ˆ)(ˆ()()ˆ(yyryyyyyyyeyyyyySSTSSRRniiniiniiiiniinii=========()在推导中注意有ˆ)ˆ(=====niiniiiniiieyyeyye所以R又等于y与拟合变量yˆ的相关系数平方。还可以证明R等于y与自变量x的相关系数而相关系数的正、负号与回归系数ˆβ的符号相同。显著性检验回归模型的线性关系检验在拟合回归方程之前我们曾假设数据总体是符合线性正态误差模型的也就是说y与x之间的关系是线性关系即iiixyεββ=),(~σεNini,,,L=然而这种假设是否真实还需进行检验。对于一个实际观测的样本虽然可以用判定系数R说明y与yˆ的相关程度但是样本测度指标具有一定的随机因素还不足以肯定y与x的线性关系。假设y与x之间存在线性关系则总体模型为iiixyεββ=ni,,,L=如果β则称这个模型为全模型。用最小二乘法拟合全模型并求出误差平方和为==niiiyySSE)ˆ(现给出假设:=βH。如果H假设成立则iiyεβ=这个模型被称为选模型。用最小二乘法拟合这个模型则有ˆ=βyxy==ˆˆββ因此对所有的ni,,,L=有yyiˆ该拟合模型的误差平方和为SSTyynii==)(因此有SSTSSE这就是说全模型的误差总是小于(或等于)选模型的误差的。其原因是在全模型中有较多的参数可以更好地拟合数据。假若在某个实际问题中全模型的误差并不比选模型的误差小很多的话这说明H假设成立即β近似于零。因此差额)(SSESST很少时表明H成立。若这个差额很大说明增加了x的线性项后拟合方程的误差大幅度减少则应否定H认为总体参数β显著不为零。假设检验使用的统计量为MSEMSRnSSESSRF==)(式中SSRdfSSRMSRR==)(==nSSEdfSSEMSEE若假设:=βH成立由于SSESSRSST=则σSSE与σSSR是独立的随机变量且)(~nSSEχσ)(~χσSSR这时),(~=nFMSEMSRF综上所述为了检验是否可以用x的线性方程式来解释y可以进行下面的统计检验。记iy关于ix的总体回归系数为β则F检验的原假设H与备则假设H分别是:=βH:βH检验的统计量为),(~=nFMSEMSRF()对于检验水平α按自由度(=n=nn)查F分布表得到拒绝域的临界值),(nFα。决策规则为若),(nFFα则接受H假设这时认为β显著为零无法用x的线性关系式来解释y。若),(>nFFα则否定H接受H。这时认为β显著不为零可以用x的线性关系来解释y。习惯上说线性回归方程的F检验通过了。需要注意的是即使F检验通过了也不说明iiixyεββ=就是一个恰当的回归模型事实上当H假设被拒绝后只能说明y与x之间存在显著的线性关系但很有可能在模型中还包括更多的回归变量而不仅仅是一个回归变量x。一般地回归方程的假设检验包括两个方面:一个是对模型的检验即检验自变量与因变量之间的关系能否用一个线性模型来表示这是由F检验来完成的另一个检验是关于回归参数的检验即当模型检验通过后还要具体检验每一个自变量对因变量的影响程度是否显著。这就是下面要讨论的t检验。在一元线性分析中由于自变量的个数只有一个这两种检验是统一的它们的效果完全是等价的。但是在多元线性回归分析中由于变量的个数只有一个这两种检验是统一的它们的效果完全是等价的。但是在多元线性回归分析中这两个建议的意义是不同的。从逻辑上说一般常在F检验通过后再进一步进行t建议。回归系数的显著性建议回归参数的建议是考察每一个自变量对因变量的影响是否显著。换句话说就是要检验每一个总体参数是否显著不为零。首先看对=β的检验。β代表ix变化一个单位对iy的影响程度。对β的检验就是要看这种影响程度与零是否有显著差异。由于))(,(~ˆ=niixxNσββ==niixx)()ˆ(Varσβ的点估计为==niixxMSES)()ˆ(β容易证明统计量)(~)ˆ(ˆntSβββ事实上由于)ˆ(Var)ˆ()ˆ(Var)ˆ()ˆ(ˆββββββββSS=其分子)ˆ(Var)ˆ(βββ服从标准正态分布而分母项有)()()()ˆ(Var)ˆ(=====nSSEMSExxxxMSESniiniiσσσββ已知)(~nSSEχσ所以)(~)ˆ(ˆntSβββˆβ的抽样分布清楚后可以进行β是否显著为零的检验。:=βH:βH检验统计量为)ˆ(ˆββSt=检验统计量t在=β假设为真时服从自由度为)(n的t分布。对于给定的检验水平α则通过t分布表可查到统计量t的临界值)(ntα。决策规则是:若)(nttα则接受H认为β显著为零若)(>nttα则拒绝H认为β显著不为零。当拒绝了H认为β显著不为零时又称β通过了t检验。另一方面由于αβββα=<)()ˆ(ˆntSP还可以确定β的置信度为α的置信区间为)ˆ()(ˆ)ˆ()(ˆβββββααSntSnt()同样地也可以对总体参数β进行显著性检验并且求出它的置信区间。它的最小二乘估计量βˆ的抽样分布为正态分布即))(,(~ˆ=niixxxnNσββ)ˆ(Varβ的估计量为)()ˆ(==niixxxnMSESβ可以推出)(~)ˆ(ˆntSβββ为检验β是否显著为零提出假设:=βH:βH检验统计量为)ˆ(ˆββSt=在=β时检验统计量t服从自由度为)(n的t分布。对于给定的检验水平α则通过t分布表可查到统计量t的临界值)(ntα。决策准则为:若)(nttα则接受H认为β显著为零若)(>nttα则拒绝H认为β显著不为零。此外根据αβββα=<)()ˆ(ˆntSP还可以确定β的置信度为α的置信区间为)ˆ()(ˆ)ˆ()(ˆβββββααSntSnt()多元线性回归模型多元线性回归分析的模型为=),(~σεεβββNxxymmL()式中,,,,σβββmL都是与mxxx,,,L无关的未知参数其中mβββ,,,L称为回归系数。现得到n个独立观测数据),,,(imiixxyLmnni>=,,,L由()得==niNxxyiiimmii,,),,(~LLσεεβββ()记=nmnmxxxxXLMLMML=nyyYM()TnεεεL=TmββββL=()表为=),(~nENXYσεεβ()其中nE为n阶单位矩阵。参数估计模型()中的参数mβββ,,,L仍用最小二乘法估计即应选取估计值jβˆ使当jjββˆ=时mj,,,,L=时误差平方和====niniimmiiixxyQ)(βββεL()达到最小。为此令=jQβnj,,,,L=得=======mjxxxyQxxyQniijimmiijniimmii,,,,)()(LLLββββββββ()经整理化为以下正规方程组=================niiimniimmniiimniiimniimniiiniimimniiiniiniiniiniimmniiniiyxxxxxxxyxxxxxxxyxxxnββββββββββββLLL()正规方程组的矩阵形式为YXXXTT=β()当矩阵X列满秩时XXT为可逆方阵()式的解为YXXXTT)(ˆ=β()将βˆ代回原模型得到y的估计值mmxxyβββˆˆˆˆ=L()而这组数据的拟合值为βˆˆXY=拟合误差YYeˆ=称为残差可作为随机误差ε的估计而====niniiiiyyeQ)ˆ(()为残差平方和(或剩余平方和)即)ˆ(βQ。统计分析不加证明地给出以下结果:(i)βˆ是β的线性无偏最小方差估计。指的是βˆ是Y的线性函数βˆ的期望等于β在β的线性无偏估计中βˆ的方差最小。(ii)βˆ服从正态分布))(,(~ˆXXNTσββ()记nnijTcXX=)()(。(iii)对残差平方和Q)(σ=mnEQ且)(~mnQχσ()由此得到σ的无偏估计ˆσ==mnQs()s是剩余方差(残差的方差)s称为剩余标准差。(iv)对总平方和==niiyySST)(进行分解有UQSST===niiyyU)ˆ(()其中Q是由()定义的残差平方和反映随机误差对y的影响U称为回归平方和反映自变量对y的影响。上面的分解中利用了正规方程组。回归模型的假设检验因变量y与自变量mxx,,L之间是否存在如模型()所示的线性关系是需要检验的显然如果所有的|ˆ|jβ),,(mjL=都很小y与mxx,,L的线性关系就不明显所以可令原假设为),,(:mjHjL==β当H成立时由分解式()定义的QU,满足),(~)(=mnmFmnQmUF()在显著性水平α下有上α分位数),(mnmFα若),(<mnmFFα接受H否则拒绝。注意接受H只说明y与mxx,,L的线性关系不明显可能存在非线性关系如平方关系。还有一些衡量y与mxx,,L相关程度的指标如用回归平方和在总平方和中的比值定义复判定系数SUR=()RR=称为复相关系数R越大y与mxx,,L相关关系越密切通常R大于(或)才认为相关关系成立。回归系数的假设检验和区间估计当上面的H被拒绝时jβ不全为零但是不排除其中若干个等于零。所以应进一步作如下m个检验),,,(mjL=::)(=jjHβ由()式),(~ˆjjjjcNσββjjc是)(XXT中的第),(jj元素用s代替σ由()~()式当)(jH成立时)(~)(ˆ=mntmnQctjjjjβ()对给定的α若)(||<mnttjα接受)(jH否则拒绝。()式也可用于对jβ作区间估计(mj,,,L=)在置信水平α下jβ的置信区间为)(ˆ,)(ˆjjjjjjcsmntcsmntααββ()其中=mnQs。利用回归模型进行预测当回归模型和系数通过检验后可由给定的),,(mxxxL=预测yy是随机的显然其预测值(点估计)为mmxxyˆˆˆˆβββ=L()给定α可以算出y的预测区间(区间估计)结果较复杂但当n较大且ix接近平均值ix时y的预测区间可简化为ˆ,ˆszyszyαα()其中αz是标准正态分布的上α分位数。对y的区间估计方法可用于给出已知数据残差iiiyyeˆ=),,(niL=的置信区间ie服从均值为零的正态分布所以若某个ie的置信区间不包含零点则认为这个数据是异常的可予以剔除。Matlab中的回归分析多元线性回归Matlab统计工具箱用命令regress实现多元线性回归用的方法是最小二乘法用法是:b=regress(Y,X)其中Y,X为按()式排列的数据b为回归系数估计值mβββˆ,,ˆ,ˆL。b,bint,r,rint,stats=regress(Y,X,alpha)这里Y,X同上alpha为显著性水平(缺省时设定为)b,bint为回归系数估计值和它们的置信区间r,rint为残差(向量)及其置信区间stats是用于检验回归模型的统计量有四个数值第一个是R(见()式)第二个是F(见()式)第三个是与F对应的概率pα<p拒绝H回归模型成立第四个是残差的方差s(见()式)。残差及其置信区间可以用rcoplot(r,rint)画图。例合金的强度y与其中的碳含量x有比较密切的关系今从生产中收集了一批数据如下表。表xy试先拟合一个函数)(xy再用回归分析对它进行检验。解先画出散点图:x=::y=,,,,,,,,plot(x,y,'')可知y与x大致上为线性关系。设回归模型为xyββ=()用regress和rcoplot编程如下:clc,clearx=::'y=,,,,,,,,'x=ones(,),xb,bint,r,rint,stats=regress(y,x)b,bint,stats,rcoplot(r,rint)得到b=bint=stats=即ˆ=βˆ=ββˆ的置信区间是,βˆ的置信区间是,=R=F=p=s。可知模型()成立。观察命令rcoplot(r,rint)所画的残差分布除第个数据外其余残差的置信区间均包含零点第个点应视为异常点将其剔除后重新计算可得b=bint=stats=应该用修改后的这个结果。表x元x元

用户评论(0)

0/200

精彩专题

上传我的资料

每篇奖励 +2积分

资料评价:

/26
0下载券 下载 加入VIP, 送下载券

意见
反馈

立即扫码关注

爱问共享资料微信公众号

返回
顶部