首页 应用回归分析,第7章课后习题参考答案

应用回归分析,第7章课后习题参考答案

举报
开通vip

应用回归分析,第7章课后习题参考答案第7章 岭回归 思考与练习参考答案 7.1 岭回归估计是在什么情况下提出的? 答:当自变量间存在复共线性时,|X’X|≈0,回归系数估计的方差就很大, 估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归(Ridge Regression,简记为RR)。 7.2岭回归的定义及统计思想是什么? 答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其统计思想是对于(X’X)-1为奇异时,给X’X加上一个正常数矩阵D,  那么X’X+D接近奇异的程度就会比X′X接近奇异的程度...

应用回归分析,第7章课后习题参考答案
第7章 岭回归 思考与练习参考答案 7.1 岭回归估计是在什么情况下提出的? 答:当自变量间存在复共线性时,|X’X|≈0,回归系数估计的方差就很大, 估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归(Ridge Regression,简记为RR)。 7.2岭回归的定义及统计思想是什么? 答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其统计思想是对于(X’X)-1为奇异时,给X’X加上一个正常数矩阵D,  那么X’X+D接近奇异的程度就会比X′X接近奇异的程度小得多,从而完成回归。但是这样的回归必定丢失了信息,不满足blue。但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。 7.3 选择岭参数k有哪几种方法? 答:最优 是依赖于未知参数 和 的,几种常见的选择方法是: 岭迹法:选择 的点能使各岭估计基本稳定,岭估计符号合理,回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太多; 方差扩大因子法: ,其对角线元 是岭估计的方差扩大因子。要让 ; 残差平方和:满足 成立的最大的 值。 7.4 用岭回归方法选择自变量应遵循哪些基本原则? 答:岭回归选择变量通常的原则是: 1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量; 2. 当k值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随着k的增加迅速趋近于零。像这样岭回归系数不稳定、震动趋于零的自变量,我们也可以予以剔除; 3. 去掉标准化岭回归系数很不稳定的自变量。如果有若干个岭回归系数不稳定,究竟去掉几个,去掉那几个,要根据去掉某个变量后重新进行岭回归分析的效果来确定。 7.5 对第5章习题9的数据,逐步回归的结果只保留了三个变量x1,x2,x5,用y对这三个自变量作岭回归分析? 答: 附5.9 在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量,自变量如下:x1为农业增加值(亿元),x2为工业增加值(亿元),x3为建筑业增加值(亿元),x4为人口数(万人),x5为社会消费总额(亿元),x6为受灾面积(万公顷)。据《中国统计年鉴》获得1978—1998年共21个年份的统计数据,见表5.4(P167)。 解:(1)逐步回归法 回归方程为: y=865.929—0.601x1-0.361x2+0.639x5 但是回归系数的解释不合理。 从经济意义上讲,x1(农业增加值)、x2(工业增加值)的增加应该对y(财政收入)有正方向的影响,然而回归方程中两个自变量的系数均为负值,明显与实际的经济意义不相符。同时,三个自变量的VIF值均远大于10,说明回归方程仍然存在较强的多重共线性,逐步回归的方法并没有消除自变量之间的多重共线性。 (2)岭回归法: 依题意,对逐步回归法所保留的三个自变量做岭回归分析。 程序为: include'C:\Program Files\SPSSEVAL\Ridge regression.sps'. ridgereg dep=y/enter x1 x2 x5 /start=0.0/stop=1/inc=0.01. 岭迹图如下: 计算结果为: 可以看到,变量x1、x2迅速由负变正,x5迅速减小,在0.01-0.1之间各回归系数的岭估计基本稳定,重新做岭回归。岭迹图如下: 先取k=0.08: 语法命令如下: include'C:\Program Files\SPSSEVAL\Ridge regression.sps'. ridgereg dep=y/enter x1 x2 x5 /k=0.08. 运行结果如下: 得到回归方程为: 再取k=0.01: 语法命令如下: include'C:\Program Files\SPSSEVAL\Ridge regression.sps'. ridgereg dep=y/enter x1 x2 x5 /k=0.01. 运行结果: ****** Ridge Regression with k = 0.01 ****** Mult R        .9931857 RSquare      .9864179 Adj RSqu      .9840210 SE        329.6916494 ANOVA table df        SS        MS Regress      3.000 134201841  44733947 Residual    17.000 1847841.9 108696.58 F value        Sig F 411.5487845      .0000000 --------------Variables in the Equation---------------- B        SE(B)          Beta      B/SE(B) x1            .0556780      .0615651      .0981355      .9043751 x2            .0796395      .0218437      .3291293    3.6458814 x5            .1014400      .0108941      .5621088    9.3114792 Constant  753.3058478  121.7381256      .0000000    6.1879205 回归方程为: y=753.3058—0.05568x1-0.0796x2+0.1014x5 从上表可看出,方程通过F检验,R检验,经查表,所有自变量均通过t检验,说明回归方程通过检验。 从经济意义上讲,x1(农业增加值)、x2(工业增加值)x5(社会消费总额)的增加应该对y(财政收入)有正方向的影响,岭回归方程中三个自变量的系数均为正值,与实际的经济意义相符。比逐步回归法得到的方程有合理解释。 (3)主成分回归 对原所有自变量做主成分回归,结果如下: 由于第一主成分的贡献率已达到85%以上,故只选取第一主成分,记作Z1: Z1=(0.991x1+0.985x2+0.983x3+0.929x4+0.193x5+0.610x6)/5.1331/2, 作Y与Z1的最小二乘估计,输出结果如下: 根据上表得到y与第一主成分的线性回归方程为: =3400.443+1149.094Z1, 将主成分回代为原自变量得最终方程为: =0.1093 * x1+0.0463 * x2+0.2912 * x3+0.0512 * x4+0.0347 * x5+0.0444 * x6-6313.397 各自变量的解释意义基本合理。 7.6 对习题3.12的问题,分别用普通最小二乘法和岭回归建立GDP对第二产业增加值x2和第三产业增加值x3的二元线性回归,解释所得到的回归系数。 解:(1)普通最小二乘法: 根据上表得到y与x2,x3的线性回归方程为: =4352.859+1.438x2+0.679x3 上式中的回归系数得不到合理的解释. 的数值应该大于1,实际上,x3的年增长幅度大于x1和x2的年增长幅度,因此合理的 的数值应大于1。这个问题产生的原因仍然是存在共线性, 所以采用岭回归来改进这个问题。 (2)岭回归法: 程序为: include'C:\Program Files\SPSSEVAL\Ridge regression.sps'. ridgereg dep=GDP/enter x2 x3 /start=0.0/stop=0.5/inc=0.01. 根据岭迹图(如下图)可知, 和 很不稳定,但其和大体上稳定,说明x2和x3存在多重共线性。取k=0.1,SPSS输出结果为: Mult R        .998145, RSquare        .996294 Adj RSqu      .995677,SE        2364.837767 ANOVA table df        SS        MS Regress      2.000 1.80E+010 9.02E+009 Residual    12.000  67109492 5592457.7 F value        Sig F 1613.140715      .000000 --------------Variables in the Equation---------------- B        SE(B)          Beta      B/SE(B) x2            .907990      .021842      .489067    41.571133 x3            1.393800      .035366      .463649    39.410560 Constant  6552.305986  1278.903452      .000000      5.123378 得岭参数k=0.1时,岭回归方程为 = 6552.306+0.908 x2+1.3938 x3, 得岭参数k=0.01时,岭回归方程为 = 3980.2+1.091 x2+1.227 x3, 与普通最小二乘回归方程相差很大。 岭回归系数 =1.227与前面的分析是吻合的,其解释是当第二产业增加值x2保持不变时,第三产业增加值 x3每增加1亿元GDP增加1.227亿元,这个解释是合理的。 7.7一家大型商业银行有多家分行,近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做定量分析,以便找出控制不良贷款的方法。表7.5(P206)是该银行所属25家分行2002年的有关业务数据。 (1)计算y与其余4个变量的简单相关系数。 (2)建立不良贷款y对4个自变量的线性回归方程,所得的回归系数是否合理? (3)分析回归模型的共线性。 (4)采用后退法和逐步回归法选择变量,所得的回归系数是否合理?是否还存在共线性? (5)建立不良贷款y对4个变量的岭回归。 (6)对(4)剔除变量后的回归方程再做岭回归。 (7)某研究人员希望做y对各项贷款余额、本年累计应收贷款、贷款项目个数这3个自变量的回归,你认为这样做可行吗?如果可行应怎么做? 解:首先对数据标准化。 (1)计算 与其余4个变量的简单相关系数。 计算y与各自变量之间的简单相关系数,SPSS输出结果为: 由结果得到,Y与四个自变量的相关系数分别为:0.844, 0.732, 0.7, 0.519,且都通过了显著性检验,说明 与其余4个变量是显著线性相关的。同时也可以看出变量之间也存在一定的线性相关性。 (2)建立不良贷款对4个自变量的线性回归方程,所得的回归系数是否合理? 由SPSS输出(如上表)可知回归方程为: =0.04x1+0.148x2+0.015x3-0.029x4-1.022 从上表可看出,方程的自变量X3、X4、X5未通过t检验,说明回归方程不显著,而且由实际意义出发,x4的系数不能是负的。所以所得的回归系数不合理。 (3)分析回归模型的共线性。 解:由上表可知,所有自变量对应的VIF全部小于10,所以自变量之间不存在共线性。但进行特征根检验见下表: 由这个表可以看出来,第5行中x1、x3的系数分别为0.87、0.63,可以说明这两个变量之间有共线性。 (4)采用后退法和逐步回归法选择变量,所得的回归系数是否合理?是否还存在共线性? 解: 采用后退法(见下表),所得回归方程为 =0.041x1+0.149x2-0.029x4-0.972 采用逐步回归法(见下表),所得回归方程为 =0.05x1-0.032x4-0.443 所得X4的系数不合理(为负),说明存在共线性 (5)建立不良贷款y对4个变量的岭回归。 对y与全部变量做岭回归。 R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K K        RSQ        X1          X2          X3          X4 ______    ______    ________    ________    ________    ________ .00000    .79760    .891313    .259817    .034471    -.324924 .05000    .79088    .713636    .286611    .096624    -.233765 .10000    .78005    .609886    .295901    .126776    -.174056 .15000    .76940    .541193    .297596    .143378    -.131389 .20000    .75958    .491935    .295607    .153193    -.099233 .25000    .75062    .454603    .291740    .159210    -.074110 .30000    .74237    .425131    .286912    .162925    -.053962 .35000    .73472    .401123    .281619    .165160    -.037482 .40000    .72755    .381077    .276141    .166401    -.023792 .45000    .72077    .364000    .270641    .166949    -.012279 .50000    .71433    .349209    .265211    .167001    -.002497 .55000    .70816    .336222    .259906    .166692    .005882 .60000    .70223    .324683    .254757    .166113    .013112 .65000    .69649    .314330    .249777    .165331    .019387 .70000    .69093    .304959    .244973    .164397    .024860 .75000    .68552    .296414    .240345    .163346    .029654 .80000    .68024    .288571    .235891    .162207    .033870 .85000    .67508    .281331    .231605    .161000    .037587 .90000    .67003    .274614    .227480    .159743    .040874 .95000    .66508    .268353    .223510    .158448    .043787 1.0000    .66022    .262494    .219687    .157127    .046373 由软件输出的岭迹图可以看出,变量x4的岭回归系数从负值变为正值。其他的变量都很稳定。说明x4变量与其他变量存在多重共线性,所以剔除变量x4 再用y与剩下的变量作岭回归。所得结果如下: R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K K        RSQ        X1          X2          X3 ______    ______    ________    ________    ________ .00000    .75964    .698331    .295891    -.065536 .02000    .75899    .647736    .300306    -.024703 .04000    .75755    .607949    .302710    .006875 .06000    .75574    .575733    .303774    .031943 .08000    .75377    .549026    .303916    .052255 .10000    .75175    .526452    .303409    .068986 .12000    .74972    .507060    .302439    .082951 .14000    .74771    .490172    .301133    .094736 .16000    .74571    .475288    .299581    .104772 .18000    .74375    .462036    .297852    .113383 .20000    .74181    .450130    .295992    .120819 剔除x4之后岭回归系数变化幅度减小很多,并且有下面的图可以看出k值,基本稳定。 参照复决定系数 ,当k=0.4时, =0. 75755仍然很大,所以可以给定k=0.4,重新作岭回归。 Run MATRIX procedure: ****** Ridge Regression with k = 0.4 ***** Mult R      .850373821 RSquare    .723135635 Adj RSqu    .683583583 SE        2.030268037 ANOVA table df        SS        MS Regress      3.000  226.089    75.363 Residual    21.000    86.562    4.122 F value        Sig F 18.28313822    .00000456 --------------Variables in the Equation---------------- B        SE(B)          Beta      B/SE(B) x1          .016739073    .003359156    .372627316  4.983118685 x2          .156806656    .047550034    .275213878  3.297719120 x3          .067110931    .032703990    .159221005  2.052071673 Constant  -.819486727    .754456246    .000000000  -1.086195166
本文档为【应用回归分析,第7章课后习题参考答案】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_511210
暂无简介~
格式:doc
大小:91KB
软件:Word
页数:0
分类:理学
上传时间:2019-09-01
浏览量:112