二 多元线性回归
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
1 回归模式
考虑 p 个自变量 和一个因变量 yx x x p1 2, ,L 它们之间的线性关系
y x x x xi i p ip p= + − + + − +α β β1 1 1( ) ( )L ei
其中 x N xj ii
N= ∑
=
1
1 j
j p= 1, ,L
ei 是独立同分布 ( ( , ))N 0 2σ
仍用最小二乘法估计回归系数 α β β, , ,1 L p
误差平方和为 [ ]y x x x xi i p ipiN − − − − − −∑= α β β1 1 11 2( ) (L p )
用矩阵形式来表示线性方程为 Y X= +β e
Y
y
y N
=
1
M
−−
−−
=
pNpN
pp
xxxx
xxxx
X
L
MLMM
L
11
1111
1
1
β
α
β
β
=
1
M
p
e
e
e
i
N
=
1
M
误差平方和为 S Y X Y X( ) ( ) ( )β β= − ′ − β
∂ β
∂β β
S
X Y X X
( ) = − ′ + ′ =2 2 0
)
′ = ′X Y X Xβ $ ( ) (β = ′ ′−X X X Y1
将 X 阵分为 [ ] j X, 1
[ ] [ ] [ ]
′
′=
′′
′′=
′=′=′
11111
1
1'
1
11 ,, XXO
ON
XXjX
xjjj
Xj
X
j
XjXjXX
N′X X1 1 在对角线上第 项为j ( )x xij j
i
−∑
=
2
1
′X X1 1 在非对角线上第 项为jh ( )(x x x xij j ih hi
N − −∑
=1
)
同样
′=
′
′=′
yX
yN
Y
X
j
YX
1
y
N
yi
i
N= ∑
=
1
1
′X Y1 的第 项为j ( ) ( )(x x y x x y yij j ii
N
iji
N
j i−∑ = ∑ − −= =1 1 )
$ $$ ( )β
α
β=
=
′
′
′
= ′ ′
−
−
1 1 1
1
1 1 1
1
1
N O
O X X
Ny
X y
y
X X X y
2 回归方程评价
残差平方和 SSE y y X Xii
N= −∑ − ′
=
( ) ( $ ) ( $ )2
1
1 1 1 1β β 自由度为 N-P-1
总离差平方和 SSY y yii
N= −∑
=
( 2
1
) 自由度为 N-1
回归平方和 SSR X X= ′$ 'β1 1 1 $β1 自由度为 P
随机误差的方差 $σ 2 1
1
= − −N P SSE 误差的
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
差 S = σ
2
在 y 的总方差中 被线性方程所解释的方差量为 R SSR
SSY
SSE
SSY
2 1= = −
由 SSE 和 SSY 的自由度不同 常用 代替 Ra2 R 2
R
SSE N P
SSY N
P
N P
N
N P Ra
2 21
1
1 1
1
1= −
− −
− =
−
− − +
−
− −
/ ( )
/ ( )
2
Ra 没有自由度不同造成的影响 在比较二个回归方程好坏时常用
3 残差的图象分析
分析目的主要是检验模式选用是否合适
令 z y yij i= − $
作 和 的散点图z j $yi 此图应是随机分布 如果呈线性分布或方差随 变化$yi 应对自
变量进行变换后 重新建立模式
和每个 的散点图z j xi 或 和z j x i2 或 和 等z j x x1 2 如果散点图发生对称分布 说
明模式需要加入新的项
的直方图和 Q-Q 图z j 检查个别误差和误差分布
Q-Q 图作法
a.将 从小到大排列 z j z i( )
b.算出每个 的发生频率z i( ) ( ) /i N− 1
2
c.根据频率查标准正态表 得到 q i( )
d.作 和 的散点图q i( ) z j 此散点图趋于直线为好
将 z 按 j 的顺序作散点图j 检查随机 ei 假设 如果 随 j 增加而变化z j 可能指示
之间不独立
yi
有自相关存在
4 回归系数检验
根据 a. E( $)α = α Var 正态分布
N
( $)α σ=
2
b. Cov( , )α β1 0=
c. 是 P 维正态分布$β1 E( $ )β1 1= β
j )
Cov X X( ) ( )β σ1 2 1 1 1= ′ −
∼ 是 的第 j 个对角元素 $β j N j j( ,β σ α2 α jj ( )′ −X X1 1 1
为 Cov i j( $ , $ )β β σ α2 ij
d. ∼ ( $ $ )β βi j− N i j ii jj ij(( ), ( ))β β σ α α α− + −2 2
t = −估计值 检验参数估计值的均方差 ∼ t N Pα , − −1
对于 α σ
α
ˆ
)( 0 Nyt
−= 置信区间 y t
NN P
± − −α σ2 1;
$
对于 βi t
Var
i
i
i
i
ii
= − = −
$
( $ )
$
$
β β
β
β β
σ α
$ $
;β σαi N P iit± − −2 1 α
j0
H j0 :β β= against , H , H j j1 1 0( ) :β β≠ j j1 2 0( ) :β β〈 H j j1 3 0( ) :β β〉
如果 t t N P〉 − −α 2 1; 拒绝 H0 接受 H j j1 1 0( ) :β β≠
如果 拒绝 1; −−〈− PNtt α H0 接受 H j j1 2 0( ) :β β〈
如果 拒绝 1; −−〉 pNtt α H0 接受 H j j1 3 0( ) :β β〉
检验所有 都为 0β j H
P
0
1 0
0
:
β
β
M M
=
F
SSR P
SSE N P
N P
P
SSR
SSE
N R
P
R
R
= − − =
− − = − − −
/
/ 1
1 1
1
2
2
如果 接受 F F P N P< − −α ; , 1 H0
5 多元回归注意的问题
模式 Y X= +β e $ ( )β1 1 1 1 1= ′ ′−X X X Y
( )′ −X X1 1 1 存在的条件是 ( 非退化)′X X1 1 要求 ′ ≠X X1 1 0 或其秩等于 P 向量组线性无关
应用时注意 检查自变量间是否线性相关 即 相关系数为 1x xi , j
样本量 , 自由度大N >> P
6 预报和置信区间
预报区间 在 的情况下[ ]X X X P0 01 01= ′, , ,L 预报出 的区间y0
模式 注y X0 1 0= + ′ +α β e0 X 0 以距平表示
预报模式 预报误差为 $ $y0 1= + ′α β X 0 y y0 0− $
对 y0 E y x( )0 = + ′α β1 0 Var y( )0 2= σ
对 $y0 E y y x( $ )0 = + ′β1 0 Var y N X X X X( $ ) ( ( )0
2
0 1 1
1
0
1= + ′ ′ −σ )
对 ( $ )y y0 0− E y y( $ )0 0 0− = Var y y N X X X X( $ ) ( ( )0 0
2
0 1 1
1
01
1− = + + ′ ′ −σ )
t
y y
N X X X X
= −
+ + ′ ′ −
0 0
0 1 1
1
01
1
$
$ ( )σ
∼ t N Pα , − −1
y0 的预报区间为
0
1
11
01;2
0100
1
11
01;2
01 )(
11ˆˆ)(11ˆˆ XXXX
N
txyyXXXX
N
txy
PNPN
−
−−
−
−− ′+++′+≤≤′++−′+ σβσβ αα
E y x( 0 ) 的置信区间
给出 时[ ]X X X P0 01 01= ′, , ,L
模式 E y x x( / )0 1= + ′α β 0 以距平表示X 0
预报 E y x y x y( $ / ) $ $0 1 0= + ′ =β 0
0
对于 $ ( / )y E y x0 − E y E y x[ $ ( / )]0 0 0− =
Var y E y x
N
X X X X[ $ ( / )] ( )0 0 2 0 1 1 1 0
1− = + ′ ′
−σ
0
1
110
00
)(1ˆ
)/(ˆ
XXXX
N
xyEyt
−′′+
−=
σ
∼ t N Pα , − −1
对于 的置信区间E y x( / )0
0
1
11
01;01010
1
11
01;01 )(
1ˆˆ)(1ˆˆ
22
XXXX
N
txyXXXXX
N
txy PNPN
−
−−
−
−− ′++′+≤′+≤′+−′+ σββασβ αα
7 多元线性回归的推广应用
均匀取值的时间序列的多项式模式
y a r t t r t t r t t et p
p
t= + − + − + + − +1 2 2( ) ( ) ( )L
令 x t t x t t x t tp p1 2 2= − = − = −( ), ( ) , , ( )L 就可用线性回归去做
但是 会线性有关′X X ( )′ −X X 1不存在 需要正交多项式变换
以二次多项式为例
tt ettttttay +−−−+−+= ])()[()( 2221 ββ
( ) ( )t t
N
t t N
i
N− = −∑ = −
=
2 2
1
21 1
12
令 x t t t1 1( ) ( )= −λ x t t t N2 2 2
2 1
12
( ) [( ) ]= − − −λ
选择 和λ1 λ2 使得 和 为整数 x t1 ( ) x t2 ( )
t: 1 2 3 4 5 6 7 8 9 10 11 12
( )t t− -5.5 -4.5 -3.5 -2.5 -1.5 -0.5 0.5 1.5 2.5 3.5 4.5 5.5
( )t t− 2 30.25 20.25 12.25 6.25 2.25 0.025 0.025 2.25 6.25 12.25 20.25 30.25
[( ) ]t t N− − −2
2 1
12
18.28 8.28 0.283 … …
令 λ1 2= λ2 3=
x1(t) -11 -9 -7 -5 -3 -1 1 3 5 7 9 11
x2(t) 55 25 1 -17 -29 -35 -35 -29 -17 1 25 55
如果是三项有 x3(t) 可为
x3(t) -33 3 21 25 25 19 7 -7 -19 -25 -3 33
此时 x1(t) x2(t)和 x3(t)之间不再线性相关了
在二次多项式中 回归系数估计值为
$α = y $ [ ( )]
( )
β1 1
1
2=
⋅∑
∑
x t y
x t
t $ [ ( )]
( )
β2 2
2
2=
⋅∑
∑
x t y
x t
t
对多项式中 回归系数 估计量为β j
$
( )
( )
β j j t
j
x t y
x t
= ⋅
∑
∑ 2
* 正交多项式变换值可以从表上查出
SSE y
y
N
x t y
x tp t
t j t
jj
p= − ∑ − ⋅∑ ∑∑∑ =
2
2 2
21
( ) [ ( ) ]
( )
H Hj j0 10 0: :β β= ≠
t
N P x t
SSEj j
j
P
= ⋅ − − ∑β ( )1
2 ( )
如果 t t H Hj N P j> ≠− −α β2 1 0 1 0; , :拒绝 接受
z 在预报时 要注意 t 的变换
三 多元相关分析
1 多元相关模式
类似于一元相关模式 根据多维正态分布 推出在给定 X=x 时 Y 的条件密度
( )[ ]
−−−−
==
••
2
211
2
'
1
2111
2
1
exp
2
1
)(
),()/( σ
β
σπ
uxuy
xf
xyfxyg
其中 ,,),(),( 12122112122'121121121 σβσσσσ −−⋅ ∑=∑−=== xEuyEu
此时 正态分布的数学期望为 )()()/( 2122'1212'11 uxuuxuxYE −∑+=−+= −σβ
方差为 12122'1211211)/( σσσσ −⋅ ∑−==xYVar
上述条件期望被称为在向量 X 上 y 的回归方程
2 多元相关系数的估计
理论 1,,2
11
1
1 +== pj
jj
j
j Lσσ
σρ 估计
∧∧
∧
=
jj
j
jR
σσ
σ
11
1
1
其中 ∑
=
−∧ −−−=
N
i
jijij xxyyN 1
_
1 ))((1
1σ
∑
=
∧ −−==
N
i
i yyN
S
1
2
_
1111 )(1
1σ ∑
=
∧ −−=
N
i
jijjj xxN 1
2
_
)(
1
1σ
相关矩阵
=
=
2212
'
1211
1
1111
1
RR
RR
rrr
rrr
rrr
R
pppp
p
p
xxxxyx
xxxxyx
yxyxyy
L
MMM
L
L
3 偏相关系数
当一个变量或更多变量对其它变量的影响是固定常数时 其它变量之间的相关关系
例如 有三个变量 3,21, xxx , x3 对 x1 和 x2 均有影响 影响可写成
1
_
331311 )( iii exxux +−+= β 2
_
332322 )( iii exxux +−+= β Ni ,,1 K=
这里 x3 被作为非随机量处理
X3 对 x1 的影响大小 )(
_
3313
_
11 xxxx ii −+=
∧∧ β
X3 对 x2 的影响大小 )(
_
3323
_
22 xxxx ii −+=
∧∧ β
X3 对 x1 的非影响为
∧−= 111 iii xxZ
X3 对 x2 的非影响为
∧−= 222 iii xxZ
此时 Zi1 中没有 x3 的影响 Zi2 中也没有 x3 的影响 Zi1 和 Zi2 的相关系数为
∧∧
∧∧
−∑−∑
−−∑=
∑∑
∑=
2
22
2
11
2211
2
2
2
1
21
2,1
)()(
)()(
))((
iiii
iiii
ii
ii
ZZ
xxxx
xxxx
ZZ
ZZr
经变换 3122
13
2
12
231312
2,1
)1)(1(
•
⋅ =
−−
−= r
rr
rrrr ZZ
)1)(1( 23
1
33
'
2313
1
33
'
13
23
1
33
'
1312
,,4,312
rRrrRr
rRrr
r k −−
−
• −−
−=K
当多个变量 x3, …xk, 取固定影响时 变量 x1 和 x2 的相关系数为
先将相关系数矩阵分解成
′
′
=
332313
2312
1312
1
1
rrr
rr
rr
R 再算 kr K312•
例如 有 5 个变量 34512,54321 ,,, •rxxxxx 求和
[ ]
[ ]
3451223
1
332313
1
331323
1
3313
45
3534
33
25242323
15141313
1212
45
3534
252423
15141312
,,
1
1
1
1
1
1
1
1
•
−−− ′′′
=
=′
=′
=
=
rrRrrRrrRr
r
rr
R
rrrr
rrrr
rr
r
rr
rrr
rrrr
R
算出后 就能算出将
当多个变量的影响取固定常数时 对多个变量间的偏相关系数为
设 xi 是一个 p+q 维变量 [ ]
[ ]21
,1,1
,
,1,,,,
iii
qpipiipii
XXX
NixxxxX
′′=′
==′ ++ LLL
2,1;2,1))((
1
1
1
2212
1211
==′−−=
−=
′=
∑
=
rsXXXXA
A
N
S
SS
SS
S
N
i
sisrirrs
rsrs样本协方差阵为
′= 2212
1211
RR
RR
R样本相关系数阵为
)()(
)(
)(
12
1
221211
'
12
1
221211
2
1
12
1
221211
2
1
2
1'
12
1
221211
2
1
211
RRRRdiagDSSSSdiagD
DRRRRD
DSSSSDR
RS
RR
SS
−−
−−−
−−−
•
−=−=
−=
−=
其中
式为偏相关系数阵的计算公
如有六个变量 求变量 246 的影响取固定值时 变量 135 的偏相关系数阵
相关系数阵为
=
1
1
1
1
1
1
46
2624
565452
36343235
1614121513
r
rr
rrr
rrrr
rrrrr
R
=
=
=
1
1
1
,,
1
1
1
46
2624
22
565452
363432
161412
1235
1513
11 r
rr
R
rrr
rrr
rrr
Rr
rr
R分解为
便可求出偏相关系数阵
4.偏相关系数的显著性检验
0:
0:
0:0:)1(
,,1
)3(
1
,,1
)2(
1
,,1
)1(
1,,1
<
>
≠=
•
•
••
kij
kij
kijkijo
H
H
HagainstH
L
L
LL
ρ
ρ
ρρ
0
)3(
12;,,1
0
)2(
12;,,1
0
)1(
12;2
,,1
,,
,,
,,
HHrr
HHrr
HHrr
kNkij
kNkij
kNkij
拒绝接受如果
拒绝接受如果
拒绝接受查相关系数表 如果
−−•
−−•
−−•
−<
>
>
α
α
α
L
L
L
注意 自由度 n 为 N-2-k
kN
z
kN
zVar
rzz kijkij
kij
−−
−=−−=
==
=
−
•
−
•
−
•
3
)(tanh
,
3
1)(
)(tanh)(tanh:
)2(
0
1
,,1
1
,,1
1
0,,1
ρµ
ρζ
ρρ
LL
L
变换通过
0,,11,
0,,10,
:
:
ρρµ
ρρµ
α
α
=>
=≤
•
•
kij
kij
Hz
Hz
L
L
接受如果
接受如果
可查表得到
的置信区间为
xx
xx
kij
ee
eex
kN
z
z
kN
z
z
−
−
•
+
−=
−−+≤≤−−−
)tanh(
)
3
tanh()
3
tanh( 22,,1
αα ρρ L