首页 实用多元统计分析_第四讲

实用多元统计分析_第四讲

举报
开通vip

实用多元统计分析_第四讲 二 多元线性回归分析 1 回归模式 考虑 p 个自变量 和一个因变量 yx x x p1 2, ,L 它们之间的线性关系 y x x x xi i p ip p= + − + + − +α β β1 1 1( ) ( )L ei 其中 x N xj ii N= ∑ = 1 1 j j p= 1, ,L ei 是独立同分布 ( ( , ))N 0 2σ 仍用最小二乘法估计回归系数 α β β, , ,1 L p 误差平方和为 [ ]y x x x xi i p ...

实用多元统计分析_第四讲
二 多元线性回归 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 1 回归模式 考虑 p 个自变量 和一个因变量 yx x x p1 2, ,L 它们之间的线性关系 y x x x xi i p ip p= + − + + − +α β β1 1 1( ) ( )L ei 其中 x N xj ii N= ∑ = 1 1 j j p= 1, ,L ei 是独立同分布 ( ( , ))N 0 2σ 仍用最小二乘法估计回归系数 α β β, , ,1 L p 误差平方和为 [ ]y x x x xi i p ipiN − − − − − −∑= α β β1 1 11 2( ) (L p ) 用矩阵形式来表示线性方程为 Y X= +β e Y y y N =       1 M         −− −− = pNpN pp xxxx xxxx X L MLMM L 11 1111 1 1 β α β β =       1 M p e e e i N =       1 M 误差平方和为 S Y X Y X( ) ( ) ( )β β= − ′ − β ∂ β ∂β β S X Y X X ( ) = − ′ + ′ =2 2 0 ) ′ = ′X Y X Xβ $ ( ) (β = ′ ′−X X X Y1 将 X 阵分为 [ ] j X, 1 [ ] [ ] [ ]    ′ ′=   ′′ ′′=   ′=′=′ 11111 1 1' 1 11 ,, XXO ON XXjX xjjj Xj X j XjXjXX N′X X1 1 在对角线上第 项为j ( )x xij j i −∑ = 2 1 ′X X1 1 在非对角线上第 项为jh ( )(x x x xij j ih hi N − −∑ =1 ) 同样    ′=   ′ ′=′ yX yN Y X j YX 1 y N yi i N= ∑ = 1 1 ′X Y1 的第 项为j ( ) ( )(x x y x x y yij j ii N iji N j i−∑ = ∑ − −= =1 1 ) $ $$ ( )β α β=     = ′ ′     ′     = ′ ′     − − 1 1 1 1 1 1 1 1 1 N O O X X Ny X y y X X X y 2 回归方程评价 残差平方和 SSE y y X Xii N= −∑ − ′ = ( ) ( $ ) ( $ )2 1 1 1 1 1β β 自由度为 N-P-1 总离差平方和 SSY y yii N= −∑ = ( 2 1 ) 自由度为 N-1 回归平方和 SSR X X= ′$ 'β1 1 1 $β1 自由度为 P 随机误差的方差 $σ 2 1 1 = − −N P SSE 误差的 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 差 S = σ 2 在 y 的总方差中 被线性方程所解释的方差量为 R SSR SSY SSE SSY 2 1= = − 由 SSE 和 SSY 的自由度不同 常用 代替 Ra2 R 2 R SSE N P SSY N P N P N N P Ra 2 21 1 1 1 1 1= − − − − = − − − + − − − / ( ) / ( ) 2 Ra 没有自由度不同造成的影响 在比较二个回归方程好坏时常用 3 残差的图象分析 分析目的主要是检验模式选用是否合适 令 z y yij i= − $ 作 和 的散点图z j $yi 此图应是随机分布 如果呈线性分布或方差随 变化$yi 应对自 变量进行变换后 重新建立模式 和每个 的散点图z j xi 或 和z j x i2 或 和 等z j x x1 2 如果散点图发生对称分布 说 明模式需要加入新的项 的直方图和 Q-Q 图z j 检查个别误差和误差分布 Q-Q 图作法 a.将 从小到大排列 z j z i( ) b.算出每个 的发生频率z i( ) ( ) /i N− 1 2 c.根据频率查标准正态表 得到 q i( ) d.作 和 的散点图q i( ) z j 此散点图趋于直线为好 将 z 按 j 的顺序作散点图j 检查随机 ei 假设 如果 随 j 增加而变化z j 可能指示 之间不独立 yi 有自相关存在 4 回归系数检验 根据 a. E( $)α = α Var 正态分布 N ( $)α σ= 2 b. Cov( , )α β1 0= c. 是 P 维正态分布$β1 E( $ )β1 1= β j ) Cov X X( ) ( )β σ1 2 1 1 1= ′ − ∼ 是 的第 j 个对角元素 $β j N j j( ,β σ α2 α jj ( )′ −X X1 1 1 为 Cov i j( $ , $ )β β σ α2 ij d. ∼ ( $ $ )β βi j− N i j ii jj ij(( ), ( ))β β σ α α α− + −2 2 t = −估计值 检验参数估计值的均方差 ∼ t N Pα , − −1 对于 α σ α ˆ )( 0 Nyt −= 置信区间 y t NN P ± − −α σ2 1; $ 对于 βi t Var i i i i ii = − = − $ ( $ ) $ $ β β β β β σ α $ $ ;β σαi N P iit± − −2 1 α j0 H j0 :β β= against , H , H j j1 1 0( ) :β β≠ j j1 2 0( ) :β β〈 H j j1 3 0( ) :β β〉 如果 t t N P〉 − −α 2 1; 拒绝 H0 接受 H j j1 1 0( ) :β β≠ 如果 拒绝 1; −−〈− PNtt α H0 接受 H j j1 2 0( ) :β β〈 如果 拒绝 1; −−〉 pNtt α H0 接受 H j j1 3 0( ) :β β〉 检验所有 都为 0β j H P 0 1 0 0 : β β M M       =       F SSR P SSE N P N P P SSR SSE N R P R R = − − = − − = − − − / / 1 1 1 1 2 2 如果 接受 F F P N P< − −α ; , 1 H0 5 多元回归注意的问题 模式 Y X= +β e $ ( )β1 1 1 1 1= ′ ′−X X X Y ( )′ −X X1 1 1 存在的条件是 ( 非退化)′X X1 1 要求 ′ ≠X X1 1 0 或其秩等于 P 向量组线性无关 应用时注意 检查自变量间是否线性相关 即 相关系数为 1x xi , j 样本量 , 自由度大N >> P 6 预报和置信区间 预报区间 在 的情况下[ ]X X X P0 01 01= ′, , ,L 预报出 的区间y0 模式 注y X0 1 0= + ′ +α β e0 X 0 以距平表示 预报模式 预报误差为 $ $y0 1= + ′α β X 0 y y0 0− $ 对 y0 E y x( )0 = + ′α β1 0 Var y( )0 2= σ 对 $y0 E y y x( $ )0 = + ′β1 0 Var y N X X X X( $ ) ( ( )0 2 0 1 1 1 0 1= + ′ ′ −σ ) 对 ( $ )y y0 0− E y y( $ )0 0 0− = Var y y N X X X X( $ ) ( ( )0 0 2 0 1 1 1 01 1− = + + ′ ′ −σ ) t y y N X X X X = − + + ′ ′ − 0 0 0 1 1 1 01 1 $ $ ( )σ ∼ t N Pα , − −1 y0 的预报区间为 0 1 11 01;2 0100 1 11 01;2 01 )( 11ˆˆ)(11ˆˆ XXXX N txyyXXXX N txy PNPN − −− − −− ′+++′+≤≤′++−′+ σβσβ αα E y x( 0 ) 的置信区间 给出 时[ ]X X X P0 01 01= ′, , ,L 模式 E y x x( / )0 1= + ′α β 0 以距平表示X 0 预报 E y x y x y( $ / ) $ $0 1 0= + ′ =β 0 0 对于 $ ( / )y E y x0 − E y E y x[ $ ( / )]0 0 0− = Var y E y x N X X X X[ $ ( / )] ( )0 0 2 0 1 1 1 0 1− = + ′ ′   −σ 0 1 110 00 )(1ˆ )/(ˆ XXXX N xyEyt −′′+ −= σ ∼ t N Pα , − −1 对于 的置信区间E y x( / )0 0 1 11 01;01010 1 11 01;01 )( 1ˆˆ)(1ˆˆ 22 XXXX N txyXXXXX N txy PNPN − −− − −− ′++′+≤′+≤′+−′+ σββασβ αα 7 多元线性回归的推广应用 均匀取值的时间序列的多项式模式 y a r t t r t t r t t et p p t= + − + − + + − +1 2 2( ) ( ) ( )L 令 x t t x t t x t tp p1 2 2= − = − = −( ), ( ) , , ( )L 就可用线性回归去做 但是 会线性有关′X X ( )′ −X X 1不存在 需要正交多项式变换 以二次多项式为例 tt ettttttay +−−−+−+= ])()[()( 2221 ββ ( ) ( )t t N t t N i N− = −∑ = − = 2 2 1 21 1 12 令 x t t t1 1( ) ( )= −λ x t t t N2 2 2 2 1 12 ( ) [( ) ]= − − −λ 选择 和λ1 λ2 使得 和 为整数 x t1 ( ) x t2 ( ) t: 1 2 3 4 5 6 7 8 9 10 11 12 ( )t t− -5.5 -4.5 -3.5 -2.5 -1.5 -0.5 0.5 1.5 2.5 3.5 4.5 5.5 ( )t t− 2 30.25 20.25 12.25 6.25 2.25 0.025 0.025 2.25 6.25 12.25 20.25 30.25 [( ) ]t t N− − −2 2 1 12 18.28 8.28 0.283 … … 令 λ1 2= λ2 3= x1(t) -11 -9 -7 -5 -3 -1 1 3 5 7 9 11 x2(t) 55 25 1 -17 -29 -35 -35 -29 -17 1 25 55 如果是三项有 x3(t) 可为 x3(t) -33 3 21 25 25 19 7 -7 -19 -25 -3 33 此时 x1(t) x2(t)和 x3(t)之间不再线性相关了 在二次多项式中 回归系数估计值为 $α = y $ [ ( )] ( ) β1 1 1 2= ⋅∑ ∑ x t y x t t $ [ ( )] ( ) β2 2 2 2= ⋅∑ ∑ x t y x t t 对多项式中 回归系数 估计量为β j $ ( ) ( ) β j j t j x t y x t = ⋅ ∑ ∑ 2 * 正交多项式变换值可以从表上查出 SSE y y N x t y x tp t t j t jj p= − ∑ − ⋅∑ ∑∑∑ = 2 2 2 21 ( ) [ ( ) ] ( ) H Hj j0 10 0: :β β= ≠ t N P x t SSEj j j P = ⋅ − − ∑β ( )1 2 ( ) 如果 t t H Hj N P j> ≠− −α β2 1 0 1 0; , :拒绝 接受 z 在预报时 要注意 t 的变换 三 多元相关分析 1 多元相关模式 类似于一元相关模式 根据多维正态分布 推出在给定 X=x 时 Y 的条件密度 ( )[ ]       −−−− == •• 2 211 2 ' 1 2111 2 1 exp 2 1 )( ),()/( σ β σπ uxuy xf xyfxyg 其中 ,,),(),( 12122112122'121121121 σβσσσσ −−⋅ ∑=∑−=== xEuyEu 此时 正态分布的数学期望为 )()()/( 2122'1212'11 uxuuxuxYE −∑+=−+= −σβ 方差为 12122'1211211)/( σσσσ −⋅ ∑−==xYVar 上述条件期望被称为在向量 X 上 y 的回归方程 2 多元相关系数的估计 理论 1,,2 11 1 1 +== pj jj j j Lσσ σρ 估计 ∧∧ ∧ = jj j jR σσ σ 11 1 1 其中 ∑ = −∧ −−−= N i jijij xxyyN 1 _ 1 ))((1 1σ ∑ = ∧ −−== N i i yyN S 1 2 _ 1111 )(1 1σ ∑ = ∧ −−= N i jijjj xxN 1 2 _ )( 1 1σ 相关矩阵   =           = 2212 ' 1211 1 1111 1 RR RR rrr rrr rrr R pppp p p xxxxyx xxxxyx yxyxyy L MMM L L 3 偏相关系数 当一个变量或更多变量对其它变量的影响是固定常数时 其它变量之间的相关关系 例如 有三个变量 3,21, xxx , x3 对 x1 和 x2 均有影响 影响可写成 1 _ 331311 )( iii exxux +−+= β 2 _ 332322 )( iii exxux +−+= β Ni ,,1 K= 这里 x3 被作为非随机量处理 X3 对 x1 的影响大小 )( _ 3313 _ 11 xxxx ii −+= ∧∧ β X3 对 x2 的影响大小 )( _ 3323 _ 22 xxxx ii −+= ∧∧ β X3 对 x1 的非影响为 ∧−= 111 iii xxZ X3 对 x2 的非影响为 ∧−= 222 iii xxZ 此时 Zi1 中没有 x3 的影响 Zi2 中也没有 x3 的影响 Zi1 和 Zi2 的相关系数为 ∧∧ ∧∧ −∑−∑ −−∑= ∑∑ ∑= 2 22 2 11 2211 2 2 2 1 21 2,1 )()( )()( ))(( iiii iiii ii ii ZZ xxxx xxxx ZZ ZZr 经变换 3122 13 2 12 231312 2,1 )1)(1( • ⋅ = −− −= r rr rrrr ZZ )1)(1( 23 1 33 ' 2313 1 33 ' 13 23 1 33 ' 1312 ,,4,312 rRrrRr rRrr r k −− − • −− −=K 当多个变量 x3, …xk, 取固定影响时 变量 x1 和 x2 的相关系数为 先将相关系数矩阵分解成         ′ ′ = 332313 2312 1312 1 1 rrr rr rr R 再算 kr K312• 例如 有 5 个变量 34512,54321 ,,, •rxxxxx 求和 [ ] [ ] 3451223 1 332313 1 331323 1 3313 45 3534 33 25242323 15141313 1212 45 3534 252423 15141312 ,, 1 1 1 1 1 1 1 1 • −−− ′′′         = =′ =′ =           = rrRrrRrrRr r rr R rrrr rrrr rr r rr rrr rrrr R 算出后 就能算出将 当多个变量的影响取固定常数时 对多个变量间的偏相关系数为 设 xi 是一个 p+q 维变量 [ ] [ ]21 ,1,1 , ,1,,,, iii qpipiipii XXX NixxxxX ′′=′ ==′ ++ LLL 2,1;2,1))(( 1 1 1 2212 1211 ==′−−= −=   ′= ∑ = rsXXXXA A N S SS SS S N i sisrirrs rsrs样本协方差阵为    ′= 2212 1211 RR RR R样本相关系数阵为 )()( )( )( 12 1 221211 ' 12 1 221211 2 1 12 1 221211 2 1 2 1' 12 1 221211 2 1 211 RRRRdiagDSSSSdiagD DRRRRD DSSSSDR RS RR SS −− −−− −−− • −=−= −= −= 其中 式为偏相关系数阵的计算公 如有六个变量 求变量 246 的影响取固定值时 变量 135 的偏相关系数阵 相关系数阵为             = 1 1 1 1 1 1 46 2624 565452 36343235 1614121513 r rr rrr rrrr rrrrr R         =         =         = 1 1 1 ,, 1 1 1 46 2624 22 565452 363432 161412 1235 1513 11 r rr R rrr rrr rrr Rr rr R分解为 便可求出偏相关系数阵 4.偏相关系数的显著性检验 0: 0: 0:0:)1( ,,1 )3( 1 ,,1 )2( 1 ,,1 )1( 1,,1 < > ≠= • • •• kij kij kijkijo H H HagainstH L L LL ρ ρ ρρ 0 )3( 12;,,1 0 )2( 12;,,1 0 )1( 12;2 ,,1 ,, ,, ,, HHrr HHrr HHrr kNkij kNkij kNkij 拒绝接受如果 拒绝接受如果 拒绝接受查相关系数表 如果 −−• −−• −−• −< > > α α α L L L 注意 自由度 n 为 N-2-k kN z kN zVar rzz kijkij kij −− −=−−= == = − • − • − • 3 )(tanh , 3 1)( )(tanh)(tanh: )2( 0 1 ,,1 1 ,,1 1 0,,1 ρµ ρζ ρρ LL L 变换通过 0,,11, 0,,10, : : ρρµ ρρµ α α => =≤ • • kij kij Hz Hz L L 接受如果 接受如果 可查表得到 的置信区间为 xx xx kij ee eex kN z z kN z z − − • + −= −−+≤≤−−− )tanh( ) 3 tanh() 3 tanh( 22,,1 αα ρρ L
本文档为【实用多元统计分析_第四讲】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_216409
暂无简介~
格式:pdf
大小:339KB
软件:PDF阅读器
页数:7
分类:管理学
上传时间:2013-08-31
浏览量:24