首页 对体育科研中多元回归方程病态设计阵的分析及其LS估计...【精品推荐-doc】

对体育科研中多元回归方程病态设计阵的分析及其LS估计...【精品推荐-doc】

举报
开通vip

对体育科研中多元回归方程病态设计阵的分析及其LS估计...【精品推荐-doc】对体育科研中多元回归方程病态设计阵的分析及其LS估计...【精品推荐-doc】 对体育科研中多元回归方程病态设计阵的分析及其LS估计的改进 彭 大 松 ( 安徽师范大学体育学院 芜湖 241000) 摘要:本文针对多元回归方程设计阵病态情况下LS估计失去优良性进行分析,讨论了体育科研中多元回归方程设计阵呈病态的原因及其识别方法。并从直观上分析了该种数据导致LS估计不理想的原因。从两个角度提出了有偏估计的办法对LS进行改进。 关键词: 体育科研 多元回归 设计阵 病态 有偏估计 On the Analys...

对体育科研中多元回归方程病态设计阵的分析及其LS估计...【精品推荐-doc】
对体育科研中多元回归方程病态设计阵的 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 及其LS估计...【精品推荐-doc】 对体育科研中多元回归方程病态设计阵的分析及其LS估计的改进 彭 大 松 ( 安徽师范大学体育学院 芜湖 241000) 摘要:本文针对多元回归方程设计阵病态情况下LS估计失去优良性进行分析,讨论了体育科研中多元回归方程设计阵呈病态的原因及其识别方法。并从直观上分析了该种数据导致LS估计不理想的原因。从两个角度提出了有偏估计的办法对LS进行改进。 关键词: 体育科研 多元回归 设计阵 病态 有偏估计 On the Analysis of Abnormal cases in Multiplied Regression Estimation in Research of sports Science Peng Dasong (College of Physical Education,Anhui Normal University ,Wuhu, 214000) Abstract: With the analysis of the loss of excellence in LS estimation in abnormal cases in multiplied regression eqution programming matrix, this paper discusses the causes for the abnormality in sports research and the means to distinguish it, with which the author directly perceives the causes for the loss of excellence in LS estimation ,and offers the means of biased estimation as a solution to the improvement of LS estimation . Key words: PE research ,Multiplied regression equation ,Programming matrix , Abnormality, Biased estimation 1前言 [5] 在多元回归分析中,设计阵X病态被表述为X?X 中至少有一个特征根非常小即接近于0(又称多元共线[1][3]性)。在体育领域里设计阵病态是一种常见的现象。对这种数据若不加考虑的任用LS方法对回归系数进行估计,会导致严重的后果,常见的是系数估计不稳定,误差过大,甚至出现与实际上相反的符号,此时的LS方法已失去其优良性。 本文拟对体育领域中设计阵呈病态进行分析,从直观上说明其破坏LS估计优良性的原因,讨论了体育科研中识别病态数据的方法,并从应用的角度介绍了两种常用的对LS估计不佳的改进办法。 2 最小二乘估计(LS估计) [1]y,,,,x,,x,?,,x,e考虑线性模型: …………………………(1)01122pp 当取得样本观测值后,回归系数β的最小二乘估计为: ,1ˆ,(xx)xy, ,…………………………(2) ˆˆˆˆ,n(p,1),(,,,,?,)y,(y,y?y),其中, , 是矩阵 , ,n是样本含量。将x ,y 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 x12n12p 化后,得到标准回归方程是: ~~~~~~~y,,x,,x,?,,x……………………………(3)1122pp 经标准化后x`x变成了相关阵。若x 是正常的那么LS估计将是优良的 。 3 设计阵病态时对LS估计的影响 [1][3] 在实际应用中,当出现设计阵病态(又称多元共线性),最小二乘估计不再具有优良的性质。甚至让分析者得出错误的结论。常见的后果有以下几个方面:对系数的估计误差过大,系数估计不稳定,增减样本时系数改变特别大,甚至出现与实际相违背系数符号。 理论上设计阵X 呈病态时则|x?x|?0。为了从直观上说明LS估计不理想,以及为后面的有偏估计的提出[2]提供理论基础而引进一个评价系数估计优劣的一个标准----均方误差。 ~,3.1 估计值的均方误差MSE() ~~~2,,,,,,3(1(1 均方误差的定义:若为参数的估计值则MSE=E(||-||)称之为估计值的均方误差。[3](数理统计上符号||a||表示向量α的长度) ~,3(1(2 MSE的分解 ~~~2,,,,MSE=E(||-||)是估计值与参数真值偏离大小的一个度量。具体地,对于一个好的估计,MSE~,不应该过大。为了更清楚的说明问题,我们对MSE进一步分解: ~~~~~~~~,,,,,,,,,,,,,MSE=E[(-)?(-)]=E[(-E)+(E-)]?[(E-)+( E-)] ~~2 ,,, =tr[cov()]+||E-||……………………………………(4) p~~~~~,,,,,若记?为(,,…)那么(4)式的第一项又可以写成度量的是各分量估计值的方差。var(,)12pi,ii,1p~~2,度量的是估计值各分量的偏差。理论上这两项均应达到较同样(4)式第二项可以写成(E,,,)I,ii,1i[3]小才可以被认为是一个好的估计。 ˆ,3(2最小二乘估计的均方误差MSE() ~ˆ,, 在对MSE分解的基础上,来讨论一下最小二乘估计的均方误差MSE()。回归方程同(1)式标准化形 222-1ˆˆˆ,,,式同(3)式,当y~N(xβ,σ/n)有MSE(),E||-β||在统计理论上已经证明了E||-β||,σtr(x?x) 22-2ˆ,D||-β||,2σtr(x?x),其理论依据参见[3]。 ,1,2,,(xx)()xx 若x?x的特征根分别是λλ…λ 由线性代数知识得到:和 的特征根分别是:12p ,1,2,, 因而有: ii p,122ˆ,E(||-β||),σ ………………(5),i, ,i1 p4,22ˆ, D(||-β||)= 2σ ………………(6),i,i,1 ˆˆ,,(5)式度量了系数估计的误差,(6)式度量了的稳定情况(或说是度量了的波动情况)若设计阵正常LS估计无疑是合适的。但要上X呈病态即x?x有接近于0的特征根,直观上(5),(6)两式特别大。说明此时LS估计的均方误差过大且系数不稳定,从而LS估计失去了优良性。 4(体育科研中设计阵病态的成因与识别方法 4(1 成因分析 导致多元回归方程系数设计阵病态的因素很多,这里仅就体育领域中常见设计阵病态成因进行,有以下几个原因: 4.1.1由于数据收集的局限性 同其他学科的研究相比,体育科学研究存在着自身的复杂性和独特性。因此,数据收集往往受到各种 客观条件的限制。如比赛时动作的不可重复性。用统计的语言来表达就是:所收集的P个指标(变量)n[3]xx….x近似的落在低于P维的 R 平面内。原则上可以通过收集更多的数据来打破病态数据的共1 2p 线性。但是数据的收集客观上存在很多困难。即便收集更多数据时可行的,但可能会因此带来的新问 题如高杠杆点,高影响点等,同样会给分析者造成麻烦。 4.1.2回归方程自变量之间客观上存在着一定程度的线性相关性 体育科学研究与其他学科相比,存在着自身的复杂性与独特性。体育动作的完成以及在运动过程中各种生理生化反应都是以复杂联系的人体为载体。人体是个复杂的系统。对这个复杂的系统研究的还欠完善,这就给选取指标带来困难,如对所要选取的指标间的相关性还不是十分清楚等 4.1.3 伪变量个数过多 体育科研中有许多问题的研究涉及到对定性变量进行定量分析,若以若干定性指标建立回归方程,通常的做法是借助于“0 1”变量(又称伪变量).若伪变量选择过多也会造成设计阵完全共线性.通常伪变量的个数应是自变量个数减去1。 4.1.4体育工作者理论基础不扎实 由于分析者理论知识水平限制而把事实上存在相关性的一个或几个变量引入回归方程,造成设计阵呈现病态.或者是分析者粗心而疏于考虑所选指标间的相关性,同样也会造成严重的后果。 另外,由于计算机科学的高速发展,许多体育工作者过分的依赖计算机,特别是处理多变量大型回归问题时根本就不从专业知识的角度来考虑而一味地将自己主观上所选地变量统统输入计算机。这样做可能就会将客观上存在共线性的变量选入回归方程从而造成设计阵病态。 4.2 设计阵病态的识别方法 设计阵病态的识别方法有很多,这里从应用的角度出发介绍几种常用的识别方法。 4.2.1 相关系数识别法 具体做法是凭专业知识,通过分析指标间的相关性来识别.若指标间相关系数达到 0.75通常认为是高度[3]相关从而造成设计阵病态。但有一点需要注意,就是相关性识别法只能识别两两指标间的关系,而对于多指标间的共线性关系将无法识别。 4.2.2 F检验与t检验相矛盾识别法 对回归方程进行检验,若F检验发现所选入的变量均与因变量关系显著。但对单个变量进行t检验发现[4]几个或全部变量都不显著。这样F检验t检验相矛盾是多元共线性的一个好的 标志 禁止坐卧标志下载饮用水保护区标志下载桥隧标志图下载上坡路安全标志下载地理标志专用标志下载 。由此可以判断设计阵呈病态。 4.2.3 特征根识别法(又称主成分识别法) 对(3)式(相关阵)进行谱分解,得到特征根分别为λλ…,λp。若其中的一个或几个接近于0表明原1,2,[1]自变量间存在着共线性从而造成设计阵病态。 5. LS估计的改进方法 ˆ, 从上面的分析知道设计阵病态,LS 估计的效果不好,反映在均方误差上即MSE() 特别大。其原因 ,,xxxx是 中存在接近于0的特征根。对此,LS改进的直观想法就是对进行适当的变换打破其共线性,使特征根接近于0的程度得到改善。下面就从减少均方误差的角度引入岭估计,从消除自变量间的多元共线性角度引入主成分有偏估计对设计阵病态下LS估计进行改进。 5.1 岭估计 5.1.1 岭估计的直观思想 ,1~~~~~~ˆˆ,,xxxx)xy,, 由(3)式得估计为=(,我们设想在的主对角元上都添加一个很小的正数k通常(0,k,1)。使x?x中接近于0的特征根得到改善。从而使系数的估计均方误差较小且稳定。依照岭估计的思想 ~~~~-1ˆ,,xxxy,其β的估计表达式是:(k),(,kI)。为了更清楚的看清其结构,我们对该式展开得:p ,1~,,,,,,,  ,k??,,()ky,,p1112111,,,,,,~,,,,,,  ,ky??,,,()k,,21222p22, ,,,,,,?         ?????,,,,,,~,,,,,,,y  ,k,,???,p()k,pppp12,,,,3,, ˆˆˆ,,,统计理论上已证明了k,0时总能找到合适得k使得MSE(k)达到最小并且有MSE(k),MSE成[6]立。 5(1(2岭参数K值的选择 岭估计中引入了一个小的正数k称为岭参数。其值的确定要依靠样本数据而定,所以比较难以确定,[4]下面介绍一种常见的确定岭参数的方法即岭迹法。 ˆ,k,1) 值为横坐标以(k)为纵坐标所描绘出的轨迹称为岭迹。那么什所谓岭迹法就是以不同的k(0,i 么时候的k值才是最佳的呢,文献 指出当所描绘的岭迹均处于稳定状态,且没有不合理的符号和残差平方和上升不太大。此时的k值即为所选。由于岭迹的计算比较麻烦为了避免必较复杂的逆的计算下面给出一个较为方便的岭迹计算式: p1,~~~~-1ˆ,,xx,xy,(k),(,kI)=……………(8)(),,xyp,ii,k,,1ii ,,其中λ, 是xx特征根和特征根所对应的特征向量。 i i 5(1(3(实例分析 例1 因变量 y 与自变量x x x 原始数据见表-1和表-2 1,2,3 表-1 观测号 x x x y 123 1 149.3 4.2 108.1 15.9 2 161.2 4.1 114.8 16.4 3 171.5 3.1 123.2 19.0 4 175.5 3.1 126.9 19.1 5 180.8 1.1 132. 18.88 6 190.7 2.2 137.7 20.4 7 202.1 2.1 146.0 22.7 8 212.4 5.6 154.1 26.5 9 226.1 5.0 162.3 28.1 10 231.9 5.1 164.3 27.6 11 239.0 0.7 167.6 26.3 表2 相关系数 系数系数估计 标准系数估计 项 X1 X2 X3 y X1 1 0.026 0.997 0.965 -0.051 -0.3394 X2 1 0.036 0.251 0.587 0.2130 X3 1 0.972 0.287 1.3028 y -10.130 10.0260.997,,,,0.02610.036分析:依原始数据有 =……………………………….(9) ,, ,,0.9970.0361,, 其三个特征根为λ=1.999 λ=0.998 λ=0.003 从(9)式(相关阵)知]x与x相关系数高达0.997即存在着12313 高度相关。另外,从特征根λ=0.003 几乎接近于零。这些迹象均表明设计阵病态,故可以用岭估计得方3 法对LS估计进行改进。具体做法是: ~~~~xxxy 记 为原变量 x ,x ,x ,y 标准化,标准化以后的回归方程记为:123123 ~~~~ˆy,bx,bx,bx 其中,b b b 是不同K值对应的岭迹见表-3,与之相对应的岭迹图如下:123112233 表-3 K b b b SSE 0.000 -0.339 0.213 1.303 1.673 0.001 -0.117 0.215 1.080 1.728 0.002 0.010 0.216 0.952 1.809 0.003 0.092 0.217 0.870 1.881 0.004 0.150 o.217 0.811 1.941 0.005 0.193 0.217 0.768 1.990 0.006 0.225 0.217 0.735 2.031 0.007 0.251 0.217 0.709 2.066 0.008 0.272 0.217 0.687 2.095 0.009 0.290 0.217 0.669 2.120 0.010 0.304 0.217 0.654 2.142 0.020 0.379 0.216 0.575 2.276 0.030 0.406 0.214 0.543 2.352 0.040 0.420 0.213 0.525 2.416 0.050 0.427 0.211 0.513 2.480 ….. ? 0.354 0.135 0.361 16.911 0.700 0.342 0.128 0.348 19.957 0.800 0.330 0.121 0.336 23.047 0.900 0.319 0.115 0.325 26.194 0.100 从岭迹图上可以看出在k=0.040时各条岭迹趋于平稳,且无异常符号,残差平方和也不大。故取k= ~~~~ˆ0.040时较合理。于是有回归方程再将此方程还原为原变量方程y,0.420x,0.213x,0.525x123 即可。 5.2.1 主成分有偏估计 ,[1]就是从消除多元共性 从上面分析知设计阵病态即|χχ|?0,会产生多元共线性现象。主成分偏估计 ,角度提出来的。主成分有偏估计的思想也很直观即对病态设计阵χχ产生的接近于0的特征根剔除掉打破 其共线性,从而使LS计得到改善。具体做法是: ~~[5],xx,?, 对标准化的设计阵进行谱分解,得到特征根λ,λ ,λ…λ和相应的特征向量根1 23p1p 据实际情况,舍弃掉接近于0的特征根和特征向量。未被舍弃的主成分进入回归方程。 由于主成分估计的做法是舍弃较小的特征根,这样必然会带来部分信息损失。所以在应用中要根据实 际问题,合理的舍弃特征根较小的主成分。通常根据贡献率大小来判断。具体的,p个主成分特征根之和 p,i为那么 反映的是第i主成分的贡献率,如果前k个主成分累积贡献率达到预先期望达到的,i,t,t,1i 数如95%,那么后(p-k)个主成分可以舍弃掉。另外,对于小于0.01的特征根所对应的主成分舍弃掉通常是合 理的。下面通过一个例子来说明主成分有偏估计的具体做法。 5.2.2 实例分析 例2 沿用例1的数据,计算出三个特征根为 :λ=1.999 λ=0.998 λ=0.003 123 个特征根所对应的特征向量为: ~~~,,,(0.70630.04350.7065)z,0.7063x,0.0435x,0.7065x11231 ~~~,,,(,0.03570.9990,0.0258)z,,0.0357x,0.9990x,0.0258x主成分是:22123 ~~~,,,(,0.7070,0.00700.7072)z,,0.7070x,0.0070x,0.7072x33123 由于第三个特征根λ=0.003很小,且前两个主成分的累积贡献率达到99.9%。因此,舍弃掉第三个主成分 ~ˆy,0.6900z,0.1913z是合理的,于是Z Z 进入回归方程。经计算得回归方程为 然后还原为原1212自变量的形式即可。 6. 关于有偏估计的几点说明 ? 岭估计以及主成分估计实质上是对最小二乘估计作了一个线性变换。如岭参数取0时岭估计就是最小二乘估计。 ? 岭估计和主成分估计都是有偏的。 ? 设计阵病态时,对回归方程的系数估计,有偏估计的方差远小于LS估计的方差。且系数精度和稳定程度都要高于LS估计。 ? 最小二乘估计只是在设计阵病态下才失去优良性,否则一致优于其他任何估计。 所以应用中要慎考虑用有偏估计代替最小二乘估计。 7. 结论与建议 通过对体育科研中多元回归方程系数设计阵病态的分析,说明了数据病态下LS估计不好的原因并介绍了改进LS估计常用的两种方法。理论与实践均已证明在系数设计阵病态下,两种方法对LS估计改进的效果是明显的。 值得注意的是LS估计只有当设计阵病态下才失去优良的性质,所以在实际操作中,先要识别设计阵是否呈病态是重要的。笔者建议,在确定了设计阵病态的情况下,最好LS估计与有偏估计都采用,以确保结果的可靠性。 致谢:感谢我的导师魏登云教授对本 论文 政研论文下载论文大学下载论文大学下载关于长拳的论文浙大论文封面下载 的悉心指导~ 8(参考文献 [1] 魏登云 [J] 多元共线性分析及其在体育科研中的应用 安徽师范大学学报(自然科学版),1996,3 [2] 张启锐 [M] 实用回归分析 北京:地质出版社,1998 [3] 陈希孺 [M] 近代回归分析 合肥:安徽教育出版社,1997 [4] 周纪芗 [M] 回归分析 上海:华东师范大学出版社,1990 [5] Richard A.Johson, Dean W.Wichern (陆旋译) [M] 实用多元统计分析 北京:清华大学出版社 2001
本文档为【对体育科研中多元回归方程病态设计阵的分析及其LS估计...【精品推荐-doc】】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_633423
暂无简介~
格式:doc
大小:37KB
软件:Word
页数:0
分类:企业经营
上传时间:2017-11-11
浏览量:16