首页 应用回归分析一元回归线性分析

应用回归分析一元回归线性分析

举报
开通vip

应用回归分析一元回归线性分析应用回归分析一元回归线性分析 一元线性回归分析 2.1 一元线性回归有哪些基本假定? 答: 假设1、解释变量X是确定性变量,Y是随机变量; 假设2、随机误差项ε具有零均值、同方差和不序列相关性: E(ε)=0 i=1,2, …,n i 2 Var (ε)=, i=1,2, …,n i Cov(ε ε)=0 i?j i,j= 1,2, …,n i,j 假设3、随机误差项ε与解释变量X之间不相关: Cov(X, ε)=0 i=1,2, …,n ii 假设4、ε服从零均值、同方差、零协方差的正态分布 2 ε~...

应用回归分析一元回归线性分析
应用回归分析一元回归线性分析 一元线性回归分析 2.1 一元线性回归有哪些基本假定? 答: 假设1、解释变量X是确定性变量,Y是随机变量; 假设2、随机误差项ε具有零均值、同方差和不序列相关性: E(ε)=0 i=1,2, …,n i 2 Var (ε)=, i=1,2, …,n i Cov(ε ε)=0 i?j i,j= 1,2, …,n i,j 假设3、随机误差项ε与解释变量X之间不相关: Cov(X, ε)=0 i=1,2, …,n ii 假设4、ε服从零均值、同方差、零协方差的正态分布 2 ε~N(0, , ) i=1,2, …,n i 2.2 考虑过原点的线性回归模型 Y=βX+εi=1,2, …,n i1ii 误差ε(i=1,2, …,n)仍满足基本假定。求β1的最小二乘估计 i nn22ˆˆ解: Q,(Y,Y),(Y,X),,,eiiii1,,ii11 n,Qeˆ,,2(Y,,X)X,0,iii1 ˆ,,i,11n (XY),ii,1iˆ,,1得: n2(X),i ,1i 2.3 证明(2.27式),,e =0 ,,,,,,,=0 。 i nn22ˆˆˆQ,(Y,Y),(Y,(,,,X)),,iiii0111证明: QQ,,ˆˆˆˆ00,,YXeYY,,,,,,其中: iiiii01ˆˆ,,,,01 即: ,e =0 ,,,,,,,=0 i 2.4回归方程E(Y)=β+β1X的参 数,ββ1的最小 二乘估计与最大似然估计在00 什么条件下等价?给出证明。 2答:由于ε~N(0, , ) i=1,2, …,n i 2所以Y=β+ βX+ ε~N(β+βX , , ) i0 1i 01ii 最大似然函数: n1,2n2n/22 L,(,,,,),,f(Y),(,,2)exp{,[Y,(,,,,,X)]},,01i1iii010i22,,i1n n1222Ln{L,(,,,,)},,ln(2,,),[Y,(,,,,,X)],ii01010222,,i1 ˆˆ使得Ln(L)最大的,就是β,β1的最大 似然估计值。 ,,001 同时发现使得Ln(L)最大就是使得下式最小, nn22ˆˆˆQ,(Y,Y),(Y,(,,,X)),,iiii01 11 上式恰好就是最小二乘估计的目标函数相同。值得注意的是:最大似然估 2计是在εi~N(0, ,)的假设下求得,最小二乘估计则不要求分布假设。 2所以在εi~N(0, , ) 的条件下, 参数β,β1的最小 二乘估计与最大似然估0 计等价。 ˆ2.5 证明是β0的无偏估计。 ,0 nnXX,1iˆˆ证明: E(,)E(Y,X)E[YXY),,,,,,01iinL,1,1iixx nnX,XX,X11ii,E[(,X)Y],E[(,X)(,,,X ,,)] ,,i01iinLnL,,i1i1xxxx nnX,XX,X11ii,E,[,(,X,)],,,(,X)E(,),,,,ii000nLnLi,i,11xxxx2.6 证明 22XX1122ˆVar,,,,,()(),,()0 nnnL2xx,,X,X,i证明: ,i1 nnX,XX,X112iiˆVar,(),Var[(,X)Y],[(,X)Var(,,,X ,,)] ,,0i01iinLnL,,i1i1xxxx 2nX,XX,XX11ii2222 ,,X,X,,[()2()],[],,nnLLnL,i1xxxxxx 2.7 证明平方和分解公式:SST=SSE+SSR nn证明: 22ˆˆ,,,,SST,Y,Y,[Y,Y),(Y,Y],,iiii,1,1 ii nnn22 ˆˆˆˆ,,,,,,,Y,Y,2Y,Y)(Y,Y,Y,Y),,,iiiiii,1,1,1iii nn22ˆˆ,,,,,Y,Y,Y,Y),SSR,SSE,,iii ,,i1i1 2.8 验证三种检验的关系,即验证: 2ˆ(n,2)r,LSSR/12xx1t,(1);(2) Ft,,,22ˆSSE/(n2),,1,r 证明:(1) ˆˆrLLrL,L,,,nrnr22yyxxyyxx ,,,,,,t22ˆ,,,SSELnSSEnSSESST((2))(2)ˆ,Lr1,xxxx (2) nnnn22222ˆˆˆˆˆˆSSRyyxyyxxyxxL,,,,,,,,,,,,,,,,,()()(())(()),,,,01111iiiixx,,,,1111iiii 2ˆ ,LSSR/12xx1 ?,,,Ft2ˆ,SSEn/(2), 2(xx),1i22.9 验证(2.63)式:Var(e)(), 1,,,inLxx证明: ˆˆˆvar()var()var()var()2cov(,)eyyyyyy,,,,,iiiiiii ˆˆˆ,,,,,,,,,var()var()2cov(,())yxyyxx011iiii 22()()xxxx,,11222ii ,,,,,[]2[],,,nLnLxxxx 2()xx,12i,,,[1],nLxx ˆˆ,,Covyy,x,x,Covyy,Covyx,x(,())(,)(,())iiiii11 nnx,x()1i,Covyy,x,xCovyy(,)()(,)其中: iiiii,,nLii11,,xx 22x,xx,x()()11222ii,,,,,,(),nLnLxxxx 2e,i2ˆ,,n,22.10 用第9题证明是s2的无偏估计量 证明: nn11222ˆˆEEyyEe,,,,()()(),,iinn,,22,,11ii 2nnxx,()1112i ,,,,evar()[1],,,innnL,,22,,ii11xx 122,,,n(2),,n,2 2.11 验证决定系数与F值之间的关系式 F2r, F,n,2 证明: SSRSSR12r,,,SSTSSRSSESSESSR,,1/ 1, n,21,SSRSSEn/(/(2)), 1F,,n,2Fn,,21,F 2.14 为了调查某广告对销售收入的影响,某商店 记录 混凝土 养护记录下载土方回填监理旁站记录免费下载集备记录下载集备记录下载集备记录下载 了5个月的销售收入y (万元)和广告费用x(万元),数据见表2.6,要求用手工计算: 表2.6 月份 1 2 3 4 5 X 1 2 3 4 5 Y 10 10 20 20 40 (1) 画散点图(略) (2) X与Y是否大致呈线性关系, 答:从散点图看,X与Y大致呈线性关系。 (3) 用最小二乘法估计求出回归方程。 计算表 2 222(Y,Y)X Y ˆˆˆ i(X,X)(X,X)(Y,Y) Y(Y,Y)(Y,Y) iiiiiii 2 2 1 10 4 100 20 6 (-14)(-4) 2 2 2 10 1 100 10 13 (-7)(3)3 20 0 0 0 20 0 0 2 2 4 20 1 0 0 27 77 2 2 5 40 4 400 40 34 14(-6)和15 和Lxx=10 和Lxy=70 和100 100 Lyy=600 SSR=490 SSE=110 均3 均20 均20 L70xyˆˆˆ,,,,7,,,Y,,X,20,3,7,,1. 101L10xxˆˆˆY,,,,X,,1,7X回归方程为: 01 (4) 求回归 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 误差 先求SSR(Qe)见计算表。 所以 Q110eˆ,,,,6.055. n,23 ˆˆ,,,(5) 给出 的置信度为95%的区间估计; 01 ˆˆˆ,,,,,,,tsts由于(1-,)的置信度下, 的置信区间是 (,)i,,ˆˆii,,ii22 t(n,2),t(3),3.182,/20.025查表可得 2ˆ36.667,S,,,1.915 ˆ,1L10xx ˆ,所以 的95%的区间估计为:(7—3.182*1.915,7+3.182*1.915),即(0.906,13.094)。 1 2X11252ˆS,,(,),36.667(,),6.351 ˆ,0nL510xx ˆ,所以 的95%的区间估计为:(-1-3.182*6.351,-1+3.182*6.351), 0 ^^ ,,即(-21.211, 19.211)。的置信区间包含0~表示不显著。 00 (6) 计算x和y的决定系数 SSRSSR4902R,,,,0.817SSTL600 yy 说明回归方程的拟合优度高。 (7) 对回归方程作方差分析 方差分析表 方差来源 平方和 自由度 均方 F值 SSR 490 1 490 13.364 SSE 110 3 36.667 SST 600 4 F值=13.364>F(1,3)=10.13(当n=1,n=8时~α=0.05查表得对应0.0512 的值为10.13),所以拒绝原假设~说明回归方程显著。 (8)做回归系数β1的显著性检验H0: β=0 1 ˆt,,/S,7/1.915,3.656 ˆ1,1 t值=3.656>t(3)=3.182,所以拒绝原假设~说明x对Y有显著0.05/2 的影响。 (8) 做相关系数R的显著性检验 SSR2R,R,,0.817,0.904SST R值=0.904>R(3)=0.878,所以接受原假设~说明x和Y有显著的0.05 线性关系。 (9) 对回归方程作残差图并作相应的分析 残差图(略) .从残差图上看出~残差是围绕e=0在一个固定的带 2子里随机波动~基本满足模型的假设e~N(0, , ), 但由于样本i 量太少, 所以误差较大. (10) 求广告费用为4.2万元时,销售收入将达到多少?并给出置信度为95%的置信区间. 解: 当X=4.2时, 0 ˆˆˆY,,,,X,,1,7,4.2,28.40010 所以广告费用为4.2万元时, 销售收入将达到28.4万元. 由于置信度为1-α时,Y0估计值的置信区间为: ˆˆY,t,S,Y,Y,t,S,,ˆˆ000Y,YY,Y000022 2XX(,)111.4420ˆS,(1,,,36.667(1,,), ˆY,Y00nL510xx 所以求得Y的95%的置信区间为: [6.05932 ,50.74068] 0 预测误差较大. 2.15 一家保险公司十分关心其总公司营业部加班的 制度 关于办公室下班关闭电源制度矿山事故隐患举报和奖励制度制度下载人事管理制度doc盘点制度下载 ,决定认真调查一下现状。经过十周时间,收集了每周加班工作时间的数据和签发的新保单数目,x为每周新签发的保单数目,y为每周加班工作时间(小时)。见表2.7。 表2..7 周序号 1 2 3 4 5 6 7 8 9 10 X 825 215 1070 550 480 920 1350 325 670 1215 Y 3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0 1、画散点图 散点图 5.0 每 周 加4.0 班 工 作3.0时( 间小 时) 2.0 200400600800100012001400 每周签发的新保单数目1.0 2、由散点图可以看出~ x与y之间大致呈线性关系。 3、用最小二乘法求出回归系数 a回归系数显著性检验表 未标准化系数标准化系数95% 回归系数的置信区间模型B标准误βtP值下限上限1(Constant).118.355.333.748-.701.937 每周签发的新保单数目.004.000.9498.509.000.003.005a. Dependent Variable: 每周加班工作时间(小时) ˆˆβ=0.118β=0.00359由表可知: 01 ˆy=0.118+0.00359x回归方程为: ˆσ4、求回归标准误差 b方差分析表 模型平方和自由度均方FP值a1回归16.682116.68272.396.000 残差1.8438.230 总和18.5259 a. Predictors: (Constant), 每周签发的新保单数目 b. Dependent Variable: 每周加班工作时间(小时) 由方差分析表可以得到:SSE=1.843 2^^SSE,,, 故回归标准误差~=0.48。 n,2 5、给出回归系数的置信度为95%的区间估计 a回归系数显著性检验表 未标准化系数标准化系数95% 回归系数的置信区间模型B标准误βtP值下限上限1(Constant).118.355.333.748-.701.937 每周签发的新保单数目.004.000.9498.509.000.003.005a. Dependent Variable: 每周加班工作时间(小时) 由回归系数显著性检验表可以看出~当置信度为95%时: ^^ ,,的预测区间为[-0.701,0.937], 的预测区间为[0.003,0.005]. 01 ^^ 的置信区间包含0~表示不拒绝为零的假设。 ,,00 b模型概要 决定系调整后的估计值的标 模型R数决定系数准误差Durbin-Watsona1.949.900.888.4800.753 a. Predictors: (Constant), 每周签发的新保单数目 b. Dependent Variable: 每周加班工作时间(小时) 6、决定系数 由模型概要表得到决定系数为0.9接近于1~说明模型的拟合优度高。 b方差分析表 模型平方和自由度均方FP值a1回归16.682116.68272.396.000 残差1.8438.230 总和18.5259 a. Predictors: (Constant), 每周签发的新保单数目 b. Dependent Variable: 每周加班工作时间(小时) 7. 对回归方程作方差分析 由方差分析表可知: F值=72.396>5.32(当n=1,n=8时~查表得对应的值为5.32) 12 ?P值0~所以拒绝原假设~说明回归方程显著。 ^ ,8、对的显著性检验 1 ^ ,从上面回归系数显著性检验表可以得到的t统计量为1t=8.509~所对应的p值近似为0~通过t检验。说明每周签发的新保单数目x对每周加班工作时间y有显著的影响。 9.做相关系数显著性检验 相关分析表 每周加班 每周签发的工作时间 新保单数目(小时)每周签发的新保单数目Pearson Correlation1.949** Sig. (2-tailed).000 N1010每周加班工作时间(小Pearson Correlation.949**1时)Sig. (2-tailed).000 N1010 **. Correlation is significant at the 0.01 level (2-tailed). 相关系数达到0.949~说明x与y显著线性相关。 10、对回归方程作残差图 0.60000残差图并作相应分 0.30000 析 未0.00000标 准化-0.30000残从残差图上看出~差 -0.60000 残差是围绕e=0随 -0.90000 200400600800100012001400即波动~满足模型每周签发的新保单数目的基本假设。 11、该公司预计下一周签发新保单X0=1000张,需要的加班时间是多少? y=0.118+0.00359*1000=3.70320当x=1000张时~小时 12、给出Y0的置信水平为95%的预测区间 通过SPSS运算得到Y0的置信水平为95%的预测区间为: ,2.5195~4.8870,。 13 给出E,Y,的置信水平为95%的预测区间 0 通过SPSS运算得到Y0的置信水平为95%的预测区间为:(3.284,4.123)。 2.16 表是1985年美国50个州和哥伦比亚特区公立学校中教师的人均年工资 y(美元)和学生的人均经费投入x(美元). 序号 y x 序号 y x 序号 y x 1958320816195381 3346 18 3059 35 2642 2026318095204602 3114 19 2967 36 3124 2032520939214193 3554 20 3285 37 2752 2680022644251604 4542 21 3914 38 3429 2947024624224825 4669 22 4517 39 3947 ‎‎ 2661027186209696 4888 23 4349 40 2509 3067833990272247 5710 24 5020 41 5440 2717023382258928 5536 25 3594 42 4042 2585320627226449 4168 26 2821 43 3402 24500227952464010 3547 27 3366 44 2829 24274215702234111 3159 28 2920 45 2297 27170220802561012 3621 29 2980 46 2932 30168222502601513 3782 30 3731 47 3705 26525209402578814 4247 31 2853 48 4123 27360218002913215 3982 32 2533 49 3608 16 216903568 33 229342729 50 414808349 21974184432584517 3155 34 2305 51 3766 解答:(1)绘制y对x的散点图,可以用直线回归描述两者之间的关系吗, 40000.00 35000.00 y 30000.00 25000.00 2000.003000.004000.005000.006000.007000.008000.009000.00 x 20000.00 由上图可以看出y与x的散点分布大致呈直线趋势。 (2)建立y对x的线性回归。 利用SPSS进行y和x的线性回归,输出结果如下: 表1 模型概要 2 2R R调整后的R 随机误差项的标准差估‎‎计 值 0.835 0.697 0.691 2323.25589 表2 方差分析表 模型 平方和 自由度 和平均 F值 P值 a1 回归平方和 6.089E8 1 6.089E8 112.811 .000 残差平方和 2.645E8 49 5397517.938 总平方和 8.734E8 50 表3 系数表 非标准化系数 标准化系数 模型 B 标准差 回归系数 t值 P值 1 常数 12112.629 1197.768 10.113 .000 对学生的人均经费投入 3.314 .312 .835 10.621 .000 21) 由表1可知,x与y决定系数为,说明模型的拟合效果一般。xr,0.697 与y线性相关系数R=0.835,说明x与y有较显著的线性关系。 ,0.0002) 由表2(方差分析表中)看到,F=112.811,显著性Sig.p,说明回 归方程显著。 3) 由表3 可见对的显著性t检验P值近似为零,故显著不为0,说明x,,11 对y有显著的线性影响。 4) 综上,模型通过检验,可以用于预测和控制。 x与y的线性回归方程为: ˆy,12112.629,3.314*x (3)绘制标准残差的直方图和正态概率图 图1 标准残差的直方图 理论正 态概率 图2 标准残差的正态概率P-P图 观测值概率 由图1可见标准化后残差近似服从正态分布,由图2可见正态概率图中的各个散点都分布在45?线附近,所以没有证据证明误差项服从同方差的正态分布的假定是不真实的,即残差通过正态性检验,满足模型基本假设。
本文档为【应用回归分析一元回归线性分析】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_009226
暂无简介~
格式:doc
大小:47KB
软件:Word
页数:13
分类:企业经营
上传时间:2017-12-09
浏览量:217