中工翌生统迅丝笙笙鱼叁塑鱼
主 成 分 回 归 分 析
南通医学院卫生系医学统计教研室 陈 峰
提 要 本文介绍了一种新的多元回归分析方法 —主成分 回 归分析
。 该法在自变量间存在
多重共线性关系时 , 对原资料的主成分作回归分析 , 以捎除回归系数中可能出现的不合理符号 。
并举例说明 。
关键词 主成分分析 回归分析 多重共线性 主成分回归
问题的提出
在建立多元回归方程时 , 常常会发现某些
自变量的系数极不稳定 , 当增减变量时 , 其值
会出现很大变化 , 甚至出现与实际情况相反的
符号 , 以致难以对所建回归方程给予符合实际
的解释 。
例如 , 本文所举之例 , 用最小二乘估计建
立的回归方程为
。 一 。
其中 为胎 儿 受 精 龄 周 , 为 胎 儿 身
长 。 , , 为胎儿头围 , 为胎儿体
重 动 。 但方程中 头围 , 。二 之系数为负 ,
意即头围与胎儿周龄成负相关关系 , 这一结论
是与实际情况相悖的 。 此时宜采用主成分回归
法来建立回归方程 , 一般可得较满意的结果 。
原理与方法
在建立 , ⋯ ⋯ , 与 的回 归方程时 ,
如某两个白变量之间相关系数接近于 , 可认
为这两个变量间存在线性关系 , 从而 , , ⋯ ,
二 之间存在 多重共线性关系 。 从而 尹 二
际情况的符号 。 在这种情况下 , 为了建立 关
于 , ⋯ ⋯ 。之 间的 回归关系 , 可采用主成
分回归分析法 。 具体步骤如下
①求自变量 、 , ⋯ ⋯ , 二 间的主成分 、 ⋯
⋯ , 之 , 从 。
, 乙 ‘ , 厂 ‘ 二 ⋯力
②由于各主成分 间相关系数为 , 此时可
用最小二乘法建立 关于主成分 , ,
· ·
⋯‘ , 的
回归方程
“ 。 声
· ·
⋯ , 勺
然后再化为关于原指标 , , ⋯ ⋯ , 二 的回归方
程
二 。 夕 ⋯ ⋯ 声 ,
。 , 乙 门 ‘
· ·
⋯
, 艺 ‘ ,
二 “ 。 · 众“
,‘工 , · ⋯ ⋯
·
众‘
,‘一 ·
、、、‘了
一一
、、、护
二
垒 。 ⋯ ⋯ 二 。
当 时 , 所得回 归方程 与用最小
二乘估计法所得方程一致 。
⋯气‘、
。 二
此时 , 用一般的最小二乘估计求出的回归系数
吞二 ‘ 丫 ‘ ‘ 可 能 出 现一些不符合实
应用实例
例胎儿受精龄 犷 , 周 与 胎儿外形测量
指标 身长 , 。 , 头围 , 切 , 体重
。 , 夕 ,
’
数据列于表 。
,儿,土⋯
裹 例胎儿周龄与外形测量指标 表 特征根及累计贡献率
。 系计贡狱率
了‘,
。
。
。
。
。
。
。
。
。
仑。
。
。
。
。
。
。
。
。
。
。
。
。
王 。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
之 。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
特征根
。
。
。
。
。
。
合计
对应的三个主成分为
之 二 。 一
。
一
。
一
。 澎
“封韶
各变量间的相关系数阵为
此时 , 各主成分间相关系数为 。 , 且主成
分之 中各 ‘的系数基本相等 , 即君 是一综合大
小指标 , 主成分二 中 的系数小于 。 , 及
的系数大于 。 , 且 , 因此 反映
的是矮胖体型指标 , 同理 , 主成分之 。反映的是
瘦高体型指标 。 但 由于二 。澎 。 , 因此 , 只需取
二个主成分来建立回归方程
二 。 声 之
按最小二乘估计可得
二 。 。 之一
。
这样求得 关于 , , 的主成分回归 。 再将式
代入式 , 即得 关于原指标 , ,
。的回归方程
二 。
不合理 的符号消失了 。 这样便于对回归方程作
出符合实际的解释 。
讨 论
, 通常在建立多元回归方程时 , 如 自变
量间存在 多重共线性关系时 , 常需采用适当方
法减少相关变量来克 服 多 重 共线性现象 。 但
是 , 如果模型是用于预测预报的 , 则未来的数
据关系未必就满足这种 多重共线性关系 , 这样
就不能保证有良好的预测效果 。 而当各自变量
间的两两相关系数均很大时 如文中所举之例 ,
三个自变量的两两相关系数均在 以上 ,
、、、几
⋯
,了了
,上。
产、、、、
一一
、声尸
。
。 。
。 。
用最小二乘估计建立 与 , , 之
间的回归方程为
犷 。 。 一
这里 的符号小于 与实际情况不符 。
这 是 因 为 与 的 相 关系数 ,
。 , 接近于 , 可认为 与 之间有如
下线性关系冶
一
即 , , 之间存 在 多重共线性关系 。
此时 , 不宜直接建立 关 于 , , 的
回归方程 。 为此 , 我们先求自变量 , , ,
。的主成分 。
都先求得 的特 征 根 及 累计贡献率列于
表 。
从特征根可知几 、 。 , 亦即‘ 澎 。 。
’
上述方法显然无能为力。 此时 , 主成分回归就 因为所选主成分没有充分利用原资料的所有信
能起到独特的作用 。 息 。 本文所举之例利用了原资料的 的
回归系数的主成分估计是有偏估计 , 信息 与最小二乘估计法比较 。 这一点亦反映
它较之最小二乘估计要损失一部分信息 。 这是 在相关系数与估计误差上 表 。
表 四种回归的比较
与 作回归 回归方程
几 , ,
之 一 绍 , 之
,
,
,
。口
。
。
。
。
。
‘ 。
二 了
一
一 一 ,
从相关系数来看 表 第 栏 , 取一个主
成分与 作回归时 , 所得 方 程 之相关系数最
小 。 相关系数随主成分数的增加而增加 , 当取
全部主成分与 作回归时 , 相关系数等于全部
原指标与 作回归所得之相关系数 从估计误
差来看 表 第 栏 , 随主成分数的增加估计
误差减少 , 当取全部主成分与 作回归时 , 效
果和全部原变量与 作回归相同 尾部不同系
计算误差 。
小 结
主成分回归是将主成分分析与多元回归分
析结合应用的一个新的尝试 , 该法可消除回归
分析中出现的不合理符号 , 使所建回归模型更
符合实际情况 。
‘
在 , 夕 机 艺 玄忿
公。儿 艺 , 京
,
,
尹 电 了 , 胜
五 即 五
了 皿
卯 皿 口 里 ,
补 五 施 ,
五 口 五
印
参 考 文 献
了
郭祖超 。 医用数理统计方法 第三版 。 北京 人 民
卫生出版社 , ,
陈希猫 , 等 。 近代回归 分析 。 合肥 安徽教育出版
社 , 、
本文档为【主成分回归分析】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑,
图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。