08多重共线性

08多重共线性多重共线性 “多重共线性”一词由R. Frisch 1934年提出，它原指模型的解释变量间存在线性关系。 1．非多重共线性假定　　rk (X 'X ) = rk (X ) = k 解释变量不是完全线性相关的或接近完全线性相关的。 ( rxi xj ( (1, ( rxi xj ( 不近似等于1。就模型中解释变量的关系而言，有三种可能。（1）rxi xj = 0，解释变量间非线性相关，变量间相互正交。这时已不需要多重回归，每个参数(j都可以通过y对xj的一元回归来估计。（2...

多重共线性 “多重共线性”一词由R. Frisch 1934年提出，它原指模型的解释变量间存在线性关系。 1．非多重共线性假定　　rk (X 'X ) = rk (X ) = k 解释变量不是完全线性相关的或接近完全线性相关的。 ( rxi xj ( (1, ( rxi xj ( 不近似等于1。就模型中解释变量的关系而言，有三种可能。（1）rxi xj = 0，解释变量间非线性相关，变量间相互正交。这时已不需要多重回归，每个参数(j都可以通过y对xj的一元回归来估计。（2）( rxi xj ( = 1，解释变量间完全共线性。此时模型参数将无法确定。直观地看，当两变量按同一方式变化时，要区别每个解释变量对被解释变量的影响程度就非常困难。（3）0 < ( rxi xj ( < 1，解释变量间存在一定程度的线性相关。实际中常遇到的是这种情形。随着共线性程度的加强，对参数估计值的准确性、稳定性带来影响。因此我们关心的不是有无多重共线性，而是多重共线性的程度。 2．多重共线性的经济解释（1）经济变量在时间上有共同变化的趋势。如在经济上升时期，收入、消费、就业率等都增长，当经济收缩期，收入、消费、就业率等又都下降。当这些变量同时进入模型后就会带来多重共线性问题。（2）解释变量与其滞后变量同作解释变量。 3．多重共线性的后果（1）当 ( rxi xj ( = 1，X为降秩矩阵，则 (X 'X) -1不存在， = (X 'X)-1 X 'Y 不可计算。（2）若 ( rxi xj ( (1，即使 ( rxi xj ( (1，仍具有无偏性。 E( ) = E[(X 'X)-1 X 'Y ] = E[(X 'X) -1X '(X( + u)] = ( + (X 'X)-1X ' E(u) = (. （3）当 ( rxi xj ( (1时，X 'X接近降秩矩阵，即 ( X 'X ( (0，Var( ) = ( 2 (X 'X)-1变得很大。所以丧失有效性。以二解释变量线性模型为例，当rxi xj = 0.8时，Var( )为rxi xj = 0时的Var( )的2.78倍。当rxi xj = 0.95时，Var( )为rxi xj = 0时的Var( )的10.26倍。 4．多重共线性的检验（1）初步观察。当模型的拟合优度（R 2）很高，F值很高，而每个回归参数估计值的方差Var((j) 又非常大（即t值很低）时，说明解释变量间可能存在多重共线性。（2）Klein判别法。计算多重可决系数R2及解释变量间的简单相关系数rxi xj。若有某个 ( rxi xj ( > R2，则xi，xj间的多重共线性是有害的。（3）回归参数估计值的符号如果不符合经济理论，模型有可能存在多重共线性。（4）增加或减少解释变量个数时，回归参数估计值变化很大，说明模型有可能存在多重共线性。（5）此外还有其他一些检验方法，如主成分分析法等，很复杂。 5．多重共线性的克服方法 5.1 直接合并解释变量当模型中存在多重共线性时，在不失去实际意义的前提下，可以把有关的解释变量直接合并，从而降低或消除多重共线性。如果研究的目的是预测全国货运量，那么可以把重工业总产值和轻工业总产值合并为工业总产值，从而使模型中的解释变量个数减少到两个以消除多重共线性。甚至还可以与农业总产值合并，变为工农业总产值。解释变量变成了一个，自然消除了多重共线性。 5.2 利用已知信息合并解释变量通过经济理论及对实际问题的深刻理解，对发生多重共线性的解释变量引入附加条件从而减弱或消除多重共线性。比如有二元回归模型 yt = (0+ (1 xt1 + (2 xt2 + ut (7.20) x1与x2间存在多重共线性。如果依据经济理论或对实际问题的深入调查研究，能给出回归系数(1与(2的某种关系，例如 (2 = ((1 (7.21) 其中 ( 为常数。把上式代入模型（7.20），得 yt = (0+ (1 xt1 + ((1 xt2 + ut = (0 + (1 (xt1 + ( xt2) + ut (7.22) 令 xt = xt1 + ( xt2 得 yt = (0+ (1 xt + ut (7.23) 模型（7.23）是一元线性回归模型，所以不再有多重共线性问题。用普通最小二乘法估计模型（7.23），得到，然后再利用（7.21）式求出。下面以道格拉斯（Douglass）生产函数为例，做进一步说明。 Yt = K Lt( Ct( eut (7.24) 其中Yt表示产出量，Lt表示劳动力投入量，Ct表示资本投入量。两侧取自然对数后， LnYt = LnKt + (LnLt + (LnCt + ut (7.25) 因为劳动力（Lt）与资本（Ct）常常是高度相关的，所以LnLt与LnCt也高度相关，致使无法求出(，(的精确估计值。假如已知所研究的对象属于规模报酬不变型，即得到一个条件 ( + ( = 1 利用这一关系把模型（7.25）变为 LnYt = LnKt + ( LnLt + (1- () LnCt + ut 整理后， Ln ( ) = Ln Kt + ( Ln ( ) + ut (7.26) 变成了Ln (Yt /Ct) 对Ln (Lt /Ct) 的一元线性回归模型，自然消除了多重共线性。估计出(后，再利用关系式( + ( = 1，估计(。 5.3 增加样本容量或重新抽取样本这种方法主要适用于那些由测量误差而引起的多重共线性。当重新抽取样本时，克服了测量误差，自然也消除了多重共线性。另外，增加样本容量也可以减弱多重共线性的程度。 5.4 合并截面数据与时间序列数据这种方法属于约束最小二乘法（RLS）。其基本思想是，先由截面数据求出一个或多个回归系数的估计值，再把它们代入原模型中，通过用因变量与上述估计值所对应的解释变量相减从而得到新的因变量，然后建立新因变量对那些保留解释变量的回归模型，并利用时间序列样本估计回归系数。下面通过一个例子具体介绍合并数据法。设有某种商品的销售量Yt模型如下， Ln Yt = (0+ (1 Ln Pt + (2 Ln It + ut (7.29) 其中Yt 表示销售量，Pt表示平均价格，It表示消费者收入，下标t表示时间。在时间序列数据中，价格Pt与收入It一般高度相关，所以当用普通最小二乘法估计模型（7.29）的回归系数时，会遇到多重共线性问题。首先利用截面数据估计收入弹性系数(2。因为在截面数据中，平均价格是一个常量，所以不存在对(1的估计问题。把用截面数据得到的收入弹性系数估计值代入原模型（7.29）。得 LnYt = (0+ (1 Ln Pt + Ln It + ut 移项整理 LnYt - Ln It = (0+ (1 LnPt + ut 变换后的因变量（LnYt - Ln It）用Zt表示，则 Zt = (0+ (1 LnPt + ut (7.30) 这时已排除收入变量的影响。模型已变换为一元线性回归模型。利用时间序列数据对模型（7.30）作普通最小二乘（OLS）估计，求出 , 。这样便求到相对于模型（7.29）的估计式， = + Ln Pt + Ln It 其中是用截面数据估计的， , 是由时间序列数据估计的。由于把估计过程分作两步，从而避免了多重共线性问题。显然这种估计方法默认了一种假设，即相对于时间序列数据各个时期截面数据所对应的收入弹性系数估计值都与第一步求到的相同。当这种假设不成立时，这种估计方法会带来估计误差。 5.5逐步回归法（1）用被解释变量对每一个所考虑的解释变量做简单回归。并给解释变量的重要性按可决系数大小排序。（2）以对被解释变量贡献最大的解释变量所对应的回归方程为基础，按解释变量重要性大小为顺序逐个引入其余的解释变量。这个过程会出现3种情形。①若新变量的引入改进了R2，且回归参数的t检验在统计上也是显著的，则该变量在模型中予以保留。②若新变量的引入未能改进R2，且对其他回归参数估计值的t检验也未带来什么影响，则认为该变量是多余的，应该舍弃。③若新变量的引入未能改进R2，且显著地影响了其他回归参数估计值的符号与数值，同时本身的回归参数也通不过t检验，这说明出现了严重的多重共线性。舍弃该变量。案例1：关于中国电信业务总量的计量经济模型（file:coline2）经初步分析，认为影响中国电信业务总量变化的主要因素是邮政业务总量、中国人口数、市镇人口占总人口的比重、人均GDP、全国居民人均消费水平。用1991-1999年数据建立中国电信业务总量计量经济模型如下， Ln y = 24.94 + 2.16 x1 – 3.03 x2 + 33.7 x3 + 1.29 x4 - 2.03 x5 (0.7) (1.6) (-0.8) (1.0) (1.5) (-1.2) R2 = 0.9944, F = 106.3, DW = 3.4, T = 9, (1991-1999), t0.05(3) = 3.18, R2 = 0.99，而每个回归参数的t检验在统计上都不显著，这说明模型中存在严重的多重共线性。下面用Klein判别法进行分析。首先给出解释变量间的简单相关系数矩阵。因为其中有一个简单相关系数大于R 2 = 0.9944，所以根据Klein判别法，模型中存在严重的多重共线性。 Ln(y) X1 X2 X3 X4 X5 Ln(y) 1.0000 x1 0.9833 1.0000 x2 0.9938 0.9895 1.0000 x3 0.9875 0.9700 0.9882 1.0000 x4 0.9820 0.9628 0.9872 0.9678 1.0000 x5 0.9815 0.9703 0.9888 0.9654 0.9986 1.0000 用逐步回归法筛选解释变量。（1）用每个解释变量分别对被解释变量做简单回归，以可决系数为标准确定解释变量的重要程度，为解释变量排序。 Ln y = - 0.39 + 2.06 x1 (- 2.1) (14.3) R2 = 0.9668, F = 204, T = 9 Ln y = - 33.26 +2.91 x2 (- 22.2) (23.6) R2 = 0.9875, F = 555, T = 9 Ln y = - 18.46 + 70.75 x3 (- 14.9) (16.6) R2 = 0.9752, F = 275.5, T = 9 Ln y = - 0.49 + 0.56 x4 (- 2.5) (13.8) R2 = 0.9644, F = 189.7, T = 9 Ln y = - 0.42 + 1.16 x5 (- 2.2) (13.5) R2 = 0.9633, F = 183.5, T = 9 之所以取半对数模型，是因为y与x1, x3, x4, x5分别呈指数关系。解释变量的重要程度依次为x2, x3, x1, x4, x5 。（2）以Ln y = - 33.26 - 291 x2为基础，依次引入x3, x1, x4, x5 。首先把x3引入模型， Ln y = - 29.9 + 2.24 x2 + 16.76 x3 (- 6.9) (2.7) (0.8) R2 = 0.988, F = 265.5, T = 9 因为x3的引入使各回归系数的t值下降，同时x3的系数也未通过t检验，所以应剔除x3。接着把x1引入模型， Ln y = - 33.37 + 2.92 x2 – 0.007 x1 (- 3.2) (3.2) (-0.01) R2 = 0.9875, F = 237.9, T = 9 同理剔除x1引入x4 Ln y = - 31.94 + 2.79 x2 + 0.022 x4 (- 3.4) (3.3) (0.14) R2 = 0.9876, F = 238.7, T = 9 同理剔除x4引入x5 Ln y = - 34.97 + 3.06 x2 - 0.062 x5 (- 3.4) (3.4) (-0.17) R2 = 0.9876, F = 238.7, T = 9 同理剔除x5，最后确定的模型是 Ln y = - 33.26 + 2.91 x2 (- 22.2) (23.6) R2 = 0.9875, F = 555, T = 9 或者用解释变量之间相关系数值最小的x1和x4同做解释变量与Ln y回归，得 Ln y = - 0.48 + 1.08 x1 + 0.28 x4 (- 3.4) (2.7) (2.5) R2 = 0.98, F = 184, T = 9 用EViews求相关系数矩阵 (1)点击Quick键并依次选择Group Statistics, Correlations，将出现一个要求填写序列名的对话框（Series List），填好序列名后按OK。 (2) 在Workfile窗口中用鼠标选中序列名, 点击Show键，OK键，从而打开数据组 (Group) 窗口。在数据组窗口点击View键选择Correlations。）表1 变量 y，x1，x2，x3，x4，x5的数据年电信业务总量 y 邮政业务总量 x1 中国人口数 x2 市镇人口比重 x3 人均GDP x4 人均消费水平 x5 1991 1.5163 0.5275 11.5823 0.2637 1.879 0.896 1992 2.2657 0.6367 11.7171 0.2763 2.287 1.070 1993 3.8245 0.8026 11.8517 0.2814 2.939 1.331 1994 5.9230 0.9589 11.9850 0.2862 3.923 1.746 1995 8.7551 1.1334 12.1121 0.2904 4.854 2.236 1996 12.0875 1.3329 12.2389 0.2937 5.576 2.641 1997 12.6895 1.4434 12.3626 0.2992 6.053 2.834 1998 22.6494 1.6628 12.4810 0.3040 6.307 2.972 1999 31.3238 1.9844 12.5909 0.3089 6.534 3.143 资料来源：《中国统计年鉴》2000 案例2：(file:B1E4)1998年农村居民食品支出（处理多重共线性） 1998年31省市自治区农村居民人均年食品支出（food，元）、人均年总支出（EX，元）和人均年可支配收入（IN，元）见散点图2，food与IN是正相关的（0.89），但估计结果回归系数确是负的。显然与事实不符、与经济理论不符。原因是EX和IN之间的多重共线性（高度相关）所致。从下表可以看出都r(EX, IN) = 0.9537大于可决系数0.9482。按克莱茵判别准则模型存在严重的多重共线性。图1 图2 另外，如果用food只对IN回归，回归系数是正的。与上述二元回归结果中的IN的回归系数相比，符号都是反的。这也说明上述二元回归结果中存在多重共线性。 Foodt = 285.5945 + 0.2571 Int (4.7) (10.5) R2 = 0.79, F = 110, T = 31 处理方法是用food只对EX回归。效果很好。 obs FOOD EX IN 1 1215.08 2873.2 3952.32 2 911.39 1976.7 3395.7 3 616.9 1298.54 2405.32 4 592.19 1056.45 1858.6 5 867.38 1577.12 1981.48 6 898.87 1702.68 2579.79 7 799.69 1471.46 2383.6 8 805.33 1464.64 2253.1 9 1775.04 4206.89 5406.87 10 1117.01 2336.78 3376.78 11 1361.8 2890.65 3814.56 12 732.14 1333.05 1863.06 13 1101.64 2025.09 2946.37 14 899.37 1538.24 2048 15 804.64 1595.09 2452.83 16 700.78 1240.3 1864.05 17 918.95 1699.43 2172.24 18 1107.23 1889.17 2064.85 19 1370.7 2683.18 3527.14 20 808.82 1414.76 1971.9 21 767.42 1246.12 2018.31 22 831.08 1343.35 1720.46 23 871.83 1440.77 1789.17 24 757.55 1094.39 1334.46 25 801.99 1312.31 1387.25 26 497.41 710.26 1231.5 27 590.9 1181.38 1405.59 28 556.85 939.55 1393.05 29 694.62 1117.79 1424.79 30 706.56 1327.63 1721.17 31 713.34 1450.29 1600.14 资料来源：《中国统计年鉴》1989。案例3：（file: nonli14）中国私人轿车拥有量决定因素分析（多重共线性特征） 1985-2002年中国私人轿车拥有量以年增长率23%，年均增长55万辆的速度飞速增长。考虑到目前农村家庭购买私人轿车的现象还很少，在建立中国私人轿车拥有量模型时，主要考虑如下因素：（1）城镇居民家庭人均可支配收入；（2）城镇总人口；（3）轿车产量；（4）公路交通完善程度；（5）轿车价格。 “城镇居民家庭人均可支配收入”、 “城镇总人口数”和“轿车产量”可以直接从统计年鉴上获得。“公路交通完善程度”用全国公路里程度量，也可以从统计年鉴上获得。由于国产轿车价格与进口轿车价格差距较大，而且轿车种类很多，做分种类的轿车销售价格与销售量统计非常困难，所以因素“轿车价格”暂且略去不用。定义变量名如下： Y：中国私人轿车拥有量（万辆） X1：城镇居民家庭人均可支配收入（元）， X2：全国城镇人口（亿人） X3：全国汽车产量（万辆） X4；全国公路长度（万公里）看相关系数阵，Y与X1，X2，X3，X4的相关系数都在0.9以上，但输出结果中，解释变量X1，X2，X3的回归系数却通不过显著性检验。这预示着解释变量之间一定存在多重共线性。看散点图，把Y与X3,X4处理成线性关系，把Y与X1,X2处理成幂函数（抛物线）关系，得结果如下，每个变量都具有很高的显著性。拟合优度也提高了，没有异方差也没有自相关。年 Y X1 X2 X3 X4 1985 28.49 739.1 2.51 43.72 92.24 1986 34.71 899.6 2.64 36.98 96.28 1987 42.29 1002.2 2.77 47.18 98.22 1988 60.42 1181.4 2.87 64.47 99.96 1989 73.12 1375.7 2.95 58.35 101.43 1990 81.62 1510.2 3.02 51.4 102.83 1991 96.04 1700.6 3.05 71.42 104.11 1992 118.2 2026.6 3.24 106.67 105.67 1993 155.77 2577.4 3.34 129.85 108.35 1994 205.42 3496.2 3.43 136.69 111.78 1995 249.96 4283 3.52 145.27 115.7 1996 289.67 4838.9 3.73 147.52 118.58 1997 358.36 5160.3 3.94 158.25 122.64 1998 423.65 5425.1 4.16 163 127.85 1999 533.88 5854 4.37 183.2 135.17 2000 625.33 6280 4.59 207 140.27 2001 770.78 6859.6 4.81 234.17 169.8 2002 968.98 7702.8 5.02 325.1 176.52 数据来源：《中国统计年鉴》，中国统计出版社，1986-2003。 1.5.4 平稳的随机解释变量假定条件⑵规定解释变量是非随机的且与随机误差项相互独立，即 E (X ' u ) = 0. 这个假定条件保证了OLS估计量的无偏性。然而经济时间序列变量有时很难满足这个条件。比如在建立模型过程中如果也用被解释变量的滞后变量做解释变量，那么假定条件E(X' u) = 0 就很难成立。又如对于消费模型，若认为消费变量是随机的，就很难认为收入变量是非随机的。此外对解释变量的观测常常带有测量误差，有时一个方程也许是属于变量间带有随机反馈的联立方程组中的一个，这些因素都会影响解释变量的非随机性。当模型中的解释变量是随机的，但具有平稳性且与误差项相互独立时，虽然计算公式变得更为复杂，但OLS估计量的优良特性基本上都存在。有如下模型 Y = X ( + u 其中X是随机的。X的方差协方差矩阵是一个纯量矩阵。若如下条件成立， T -1 X 'X = Q , (1.96) T -1 X ' u = 0 . (1.97) 其中Q是一个非退化矩阵（假定条件⑷），则 ( 的最小二乘估计量具有一致性。 EMBED Equation.3 = (X ' X )-1 X ' Y = (X ' X)-1 X ' ( X ( + u ) = ( + (X ' X)-1 X ' u = ( + (T -1X ' X )-1 (T -1 X ' u ) = ( + Q -1 0 = ( (1.98) 同时可证明 Var( ) 的估计量也具有一致性（略）。 1.5.5 变量的测量误差当变量存在测量误差，特别是当解释变量存在测量误差时，会把这种误差叠加到被解释变量上，从而导致回归系数的OLS估计量失去一致性。 EMBED Equation.3 ( (. 因为是渐近偏倚的，所以也是不一致的。 1.5.6 丢失变量偏倚当模型中丢失与解释变量有关且对被解释变量又解释作用的变量时会对模型参数的估计造成偏倚。 E( ) ( ( 1.5.7 模型中解释变量的滞后项作解释变量例如： yt = (0+ (1 yt -1 + (2 xt + ut (7.20) 上式回归参数的OLS估计量只具有一致性，不具有无偏性。 E( )= E( ) = E( ) = (1 + E( ) ( (1 1 7 _1088921440.unknown _1088928079.unknown _1088928146.unknown _1162304719.unknown _1162304950.unknown _1162304566.unknown _1088928107.unknown _1088921519.unknown _1017423327.unknown _1088920881.unknown _1088920897.unknown _1031161696.unknown _1031210689.unknown _1017423357.unknown _1005215900.unknown _1017423249.unknown _1005214278.unknown _1005215868.unknown

                    本文档为【08多重共线性】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

08多重共线性

你可能还喜欢