第 14卷 第 3期 计 算 机 辅 助 工 程 Vol. 14 No. 3
2005年 9月 COMPUTER AIDED ENGINEERING Sep. 2005
文章编号:1006-0871(2005)03-0074-05
Logistic回归模型分析
施朝健 1, 2,张明铭 1
(1.上海海事大学 商船学院,上海 200135;2.复旦大学 信息工程学院,上海 200433)
摘 要:对 Logistic 回归模型做了比较详细的分析。通过阐述回归分析与概率假定的关系,
并把回归模型纳入广义线性模型框架进行推导和分析,便于全面了解回归模型及其理论依据
和构造
方法
快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载
,以利于对回归模型的合理应用。
关键词:Logistic回归;广义线性模型;概率模型
中图分类号:O212.1; TP274 文献标识码:A
Analysis of Logistic regression models
SHI Chaojian1, 2, ZHANG Mingming1
(1. Merchant Marine College, Shanghai Maritime Univ., Shanghai 200135, China;
2. College of Inf. Eng., Fudan Univ., Shanghai 200433, China)
Abstract: Logistic regression model is analyzed in detail. By illustrating the relation between
regression analysis and its probability hypothesis, analyzing and deducing regression models
which are performed in the framework of generalized linear models, a thorough understanding of
the theoretical background and construction methods is of benefit to the reasonable applications of
these models.
Key words: Logistic regression; generalized linear model; probabilistic models
0 引 言
Logistic 回归分析作为一种有效的数据处理方
法被广泛应用,尤其在医学、社会调查、生物信息
处理等领域。在国内,对 Logistic 回归的研究主要
集中在应用方面,但许多研究人员在应用 Logistic
回归算法时,很少仔细探究其背后的理论模型和有
关假定,因而会出现应用不太合理的情况。例如,
在利用 Logistic 回归研究影响初中学生开始吸烟的
因素时,采用整群抽样的方法,在城市及郊区的学
校各选择初一年级一个班的全部学生进行调查。[1]
该方法没有考虑到学生之间的吸烟行为是互相影响
的,即研究个体之间不是独立的。其合理性受到质
疑。[2]也有少部分研究涉及 Logistic 回归模型的理
论问题。文献[3]注意到 Logistic回归模型中的过度
离散现象,提出通过 Pearson和 Deviance统计量和
利用Williams法进行纠正的方法。文献[4]对Logistic
回归模型进行分析,应用 Bayes 观点讨论 Logistic
模型中的参数估计问题。
近年来,Logistic回归的应用研究在继续拓展。
国外开始进行将其应用于多实例标签包(labeled
bag of instances)分类问题的研究。[5]国内也开始注
收稿日期:2005-08-01;修回日期:2005-08-13
基金项目:上海市重点学科建设项目(T0603)
作者简介:施朝健(1957- ),男,福建屏南人,教授,博导,研究方向为交通信息工程及控制,(E-mail) cjshi@shmtu.edu.cn
第 3期 施朝健,等:Logistic回归模型分析 75
意应用累积Logistic回归尤其是多分类累积Logistic
回归分析和处理的相关问题,但应用还是比较初步
的,研究集中在对进行聚类分析后的离散性变量,
利用线性系数模型进行累积 Logistic回归。[6, 7]
在现有的统计教科
书
关于书的成语关于读书的排比句社区图书漂流公约怎么写关于读书的小报汉书pdf
中,一般都有 Logistic 回
归模型的
内容
财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容
,但往往不作为中心内容,缺乏有关
该方法的详尽讨论。[8]机器学习的书籍虽然涉及到
Logistic回归,但没有进行深入讨论。[9]有关专著在
国内外很少。因此有必要对该模型的理论背景和框
架进行较为深入的探讨,以便做到合理应用该模型。
1 线性回归的概率关联
利用最小二乘法进行线性回归,定义 cost函数
为:
( ) T ( ) 2
1
1( ) ( )
2
n
i i
i
J y
=
= −∑w w x
(1)
这个定义其实隐含着样本点回归误差服从一定概率
分布的假定。假设样本数对(x(i), y(i))间关系由如
下线性函数
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
达:
( ) T ( ) ( )i i iy ε= +w x (2)
其中 )(iε 表示误差值,设该误差值为 IID随机变量并
服从高斯分布,其密度函数为:
⎠
⎞
⎜⎜⎝
⎛
− =
2
2)(
) (
2
)( exp
2
1) (
σ
ε
σ π
ε iip (3)
这意味着在给定 x(i)和 w(i)的条件下,y(i)的概率密度
为:
( ) T ( ) 2
( ) ( )
2
1 ( )( | ; ) exp
22π
i i
i i yp y
σσ
⎛ ⎞−
= −⎜ ⎟⎝ ⎠
w xx w
(4)
令,
⎥⎥
⎥⎥
⎥
⎦
⎤
⎢⎢
⎢⎢
⎢
⎣
⎡
=
⎥⎥
⎥⎥
⎥
⎦
⎤
⎢⎢
⎢⎢
⎢
⎣
⎡
=
)(
(2)
(1)
T)(
T)2(
T)1(
)(
)(
)(
nn y
y
y
MM
Y
x
x
x
X
在给定 X,w 的条件下,Y 的概率可表示为
p(Y|X;w),将这个概率看成 w 的函数,我们称之为
似然函数(likelihood function),
( ) ( ; , ) ( | ; )L L p= =w w X Y Y X w (5)
在 )(iε 独立分布的假定下,给定 x(i)的条件下 y(i)独立
分布,这样可写成:
( ) ( )
1
( ) T ( ) 2
2
1
( ) ( | , )
1 ( )exp
22π
n
i i
i
i in
i
L p y
y
σσ
=
=
=
⎛ ⎞−
= −⎜ ⎟⎝ ⎠
∏
∏
w x w
w x
(6)
给出表示 x(i),y(i)关系的概率模型,根据最大似然原
理(principle of maximum likelihood),为合理拟合数
据应选取 w使得 L(w)最大化,但计算比较烦琐,取
L(w)的对数作为对数似然(log likelihood)l(w)以简
化最大值分析,
( ) T ( ) 2
2
1
( ) T ( ) 2
2
1
( ) T ( ) 2
2
1
( ) log ( )
1 ( ) log exp
22π
1 ( ) log exp
22π
1 1 1 log . ( )
22π
i in
i
i in
i
n
i i
i
l L
y
y
n y
σσ
σσ
σσ
=
=
=
=
⎛ ⎞−
= −⎜ ⎟⎝ ⎠
⎛ ⎞−
= −⎜ ⎟⎝ ⎠
= − − −
∏
∑
∑
w w
w x
w x
w x
(7)
从对数函数的性质知,当 l(w)最大时,相应使 L(w)
最大。由(7)式可以看出,要使 l(w)达到最大,相
当于使
( ) T ( ) 2
1
1 ( )
2
n
i i
i
y
=
−∑ w x (8)
最小,对照(1)式可知,(8)式即最小二乘法的
cost函数 J(w)。
2 Logistic回归 cost函数的分析
在回归问题中如果响应 y为二值性的,便实际
成为分类问题,即所谓二分类问题。为了使问题分
析得更直观些,假定 y的取值为 0或1。
Logistic 回归是解决这种二分类问题的有效方
法之一。该法也是在一定的概率模型假定下推出的。
首先考察函数:
T
T 1( ) ( )
1 e
h g
−
= =
+
w w x
x w x (9)
其中,
1( )
1 e z
g z
−
=
+
称为 Logistic函数或 sigmoid 函数。
假定在给定 x;w 的条件下,y=1 出现的概率服
从伯努利分布,并可表示为:
( 1| ; ) ( )
( 0 | ; ) 1 ( )
p y h
p y h
= =
= = −
w
w
x w x
x w x
如上两式可合并为紧凑形式:
1( | ; ) ( ) (1 ( ))y yp y h h −= −w wx w x x (10)
其中 }1,0{∈y 。在 m个独立样本数对情况下,样本数
据的似然函数为:
( ) ( ) ( )
( ) ( )
1
( ) ( ) 1
1
( ) ( ; )
( | ; )
( ) (1 ( )))
i i
n
i i
i
n yi i y
i
L p
p y
h h
=
−
=
=
=
= −
∏
∏ w w
w Y | X w
x w
x x (11)
同样,为计算方便,取对数似然:
76 计 算 机 辅 助 工 程 2005年
))(1log()1()(log
)(log)(
)()()(
1
)( iii
n
i
i hyhy
Ll
xx
ww
ww −−+=
=
∑
=
(12)
合理回归就是恰当选择 w使得 l(w)达到最大,即式
(12)可以作为回归的指标函数。在式(12)中令
2
1 )(i
i
yy +=
使 { }1,1−∈iy ,同时,令:
( )( )iip h= w x
则容易推出指标函数在 yi 的取值为{-1,1}时的另一
种表达方式[9]:
1
1 1( ) log log(1 )
2 2
( 1| ; )
n
i i
i i
i
i i
y yJ p p
p P
=
+ −
= − + −
≡ =
∑w
Y x w (13)
对于式(12)的似然函数 l(w),回归时应使之最大
化,上式右边取负值使 J(w)成 cost 函数,回归时应
使之最小化。
下面推导式(12)的似然函数 l(w)的梯度,为
了运算方便,先考虑一个数对{x=x(i); y=y(i)}的情况,
对该式求 w∈jw 的偏导,
( )
( )
( )
j
j
j
jj
xhy
xgygy
w
gg
g
y
g
y
g
wg
y
g
yl
w
))((
))(1)(1((
))(1)((
)(1
11
)(
1
)(
)(1
11
)(
1)(
TT
TTT
TT
T
TT
x
xwxw
xwxwxw
xwxw
xw
xwxw
w
w−=
−−−=
∂
∂
−
⎟⎟⎠
⎞
⎜⎜⎝
⎛
−
−−=
∂
∂
⎟⎟⎠
⎞
⎜⎜⎝
⎛
−
−−=
∂
∂
(14)
上述推导过程用到 sigmoid 函数的导数公式:
2
1( ) .e
(1 e )
1 1 . 1
1 e 1 e
( )(1 ( ))
z
z
z z
g z
g z g z
−
−
− −
′ =
+
⎛ ⎞
= −⎜ ⎟+ +⎝ ⎠
= −
(15)
考虑到微分算子的线性性质,得出对数似然函数的
梯度:
( ) ( )
1
( ) ( ( ))
n
i i
i
i
l y h x
=
∇ = −∑ ww x (16)
同样,在式(16)中,令
)(
2
1
)(
)(
i
i
i
i
hp
yy
xw=
+
=
则推出对数似然函数的梯度在 yi 的取值为{-1,1}时
的另一表达[9]:
( )
1
1( ) ( )
2
in
i i
i
yJ p x
=
+∇ = −∑w (17)
3 Logistic回归的推广模型
3.1 广义线性模型
为了使推导过程简明清晰, 本节只考虑 x 为单
变量 x的情形, 不失一般性, 结果可以推广到x为向
量的情况。
在线性回归中假定概率模型:
),(~);( 2σµθ Nxp
而在二分类 Logistic回归中,假定概率模型:
( ; ) ~ Bernoulli ( )p x θ φ
事实上这些模型可以泛化为一类模型族,称为广义
线性模型。
广义线性模型可以通过如下指数族概率模型
来表达:
))()(exp()();( T ηηη axTxbxp −= (18)
其中 x,η 和 T 根据应用情况可以是标量或矢量。
线性回归模型和二分类 Logistic 回归模型可以
归为广义线性模型的两个特例。
对于线性回归模型:
2
2 2
1 1( ; ) exp ( )
22π
1 1 1 exp . exp
2 22π
p x x
x x
µ µ
µ µ
⎛ ⎞
= − −⎜ ⎟⎝ ⎠
⎛ ⎞ ⎛ ⎞
= − −⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ (19)
对照式(18)可知,在广义线性模型中,令
2
2
( ) (1/ 2π ) exp( / 2)
( )
( ) / 2
b x x
T x x
a
η µ
η µ
= −
=
=
=
便可由广义线性模型得到线性回归模型的概率模
型。
对于二分类 Logistic回归模型:
⎟⎟⎠
⎞
⎜⎜⎝
⎛
−+⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟⎠
⎞⎜⎜⎝
⎛
−
=
−−+=
−=
−
)1log(
1
logexp
))1log()1(logexp(
)1();( )1(
φφ
φ
φ
φφφ
x
xxx
xp xx
(20)
同样,在广义线性模型中,令
log( )
1
( )
( ) log(1 ) log(1 e )
( ) 1
T x x
a
b x
η
φη φ
η φ −
=
−
=
= − − = −
=
便得到二分类 Logistic回归的概率模型。
还有许多其他分布也属于广义线性模型家族。
如伽玛分布,非负二项式分布等,许多累积模型
(additive model)也往往属于这个家族。[10]
下面考察多分类 Logistic回归模型。
第 3期 施朝健,等:Logistic回归模型分析 77
3.2 多分类Logistic回归模型
考虑响应变量 y可以取 k个值之一的多类分类
问题。即
},,2 ,1{ ky K∈
对于这类问题需要 k-1个参数 121 ,,, −kφφφ K ,其中:
),( φφ iypi ==
且
∑−
=
−==
1
1
1)(
k
i
ikyp φ
注意 kφ 并非真正的参数,它可由 121 ,,, −kφφφ K 确定。为
方便起见,引入变量
1
1 0 0 0
0 1 0 0
, , , , 0 0 0 0
0 0 1 0
k−
⎧ ⎫⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎪ ⎪⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎪⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎪⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= ⊆⎨ ⎬⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎪⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎪⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎪⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎩ ⎭
y% L
M M M M
R
同时引进如下定义的指示函数:
1{True}=1 1{False}=0
例如:1{2=1+1},1{1+3}=0。利用指示函数,y和 y~之
间的关系可表示为:
{ }i y i= =y% 1
于是我们有:
1
i11 2
{ 1} { 2} { }
1 2
1
1 2
T
( ; )
.
exp( a( ))
k
i
y y y k
k
k
p x φ φ φ φ
φ φ φ
η
−
=
= = =
−
=
∑
=
= −
1 1 1
yy y
η y
%% %
L
%
(21)
其中,
1
2
1
log( / )
log( / )
log( / )
( ) log( )
k
k
k k
ka
φ φ
φ φ
φ φ
φ
−
⎡ ⎤⎢ ⎥⎢ ⎥
= ⎢ ⎥⎢ ⎥⎣ ⎦
= −
η
η
M
对照式(18)可知,多分类问题也属于指数族模型,
其中 b(y)=1,T(y)= y~。
由
k
i
iη φ
φ
log=
我们有:
e iη i
k
φ
φ= (22)
定义:
0log ==
k
k
kη φ
φ
(23)
对式(22)两边求和:
1 2
1
1e j
k η k
j k k
φ φ φ
φ φ
=
+ + +
= =∑ K
即
∑
=
= k
j
ηk je
1
1φ
代入式(22)并整理,得:
1
e
e
i
j
η
i k η
j
φ
=
= ∑ (24)
式(24)可以作为多分类回归的通用模型,通过合
理设定η并根据最大似然原理进行相关匹配,可解
决一般多分类问题。
对式(24),进一步假定 iη 与 x 为线性关系。
即: T ( 1, 2, , 1)iη i k= = −w x K
其中 w1, w2,…, wk-1 为多类回归模型参数。定义
wk=0,从而使 0=kη 以满足式(23)定义,于是得
到多类 Logistic回归的概率模型:
T
T
1
e( | ; )
e
i
jk
j
p y i
=
= = ∑
w x
w x
x w
(25)
由这个概率模型,可用前面所述的最大似然原理进
行多类 Logistic回归。容易看出,在 k=2的情况下,
可由式(25)导出式(9)即二分类模型。
3.3 累积Logistic回归
在二分类 Logistic 回归中采用的概率模型为式
(9),该式可以改写为:
T( )log
1 ( )
h
h
⎛ ⎞
=⎜ ⎟
−⎝ ⎠
w
w
x w x
x (26)
对照式(20),可以看出上式左边就是二分类 Logistic
回归表示成广义线性模型中的 η参量。也就是说,
在二分类 Logistic回归中,假设η与 x成线性关系。
即
T
0 0 1 1 2 2 n nη w x w x w x w x= = + + + +w x K (27)
其中 x0=1。将上式的线性项以更一般的函数 fj(xj)取
代,得到:
0 1 1 2 2( ) ( ) ( ) ( ) ( )o n nη f x f x f x f x F= + + + + = xK (28)
代回式(9),则得到二分类累积 Logistic回归模型:
( )
1( ) ( )
1 e F
h p
−
= =
+w x
x x (29)
或
( )
( )
e( )
1 e
F
Fp = +
x
xx
(30)
其中 p(x)为给定 x条件下 y=1 的概率。
事实上,fi就是 wixi,因此式(27)也可以构成
累积 Logistic 回归模型,可称之为累积 Logistic 回
归的线性系数模型。
对于多分类累积 Logistic 回归,同样可以用一
般函数
78 计 算 机 辅 助 工 程 2005年
,0 0 ,1 1 ,2 2
n
, ,
i 0
( ) ( ) ( ) ( )
( ) ( )
j j j j
j n n j i i
F f x f x f x
f x f x
=
= + + + +
=∑
x K
(31)
取代式(25)中的线性项 xwTj ,从而得到多分类累
积 Logistic回归的概率模型。
( )
( )
1
e( )
e
j
j
F
k F
j
p
=
= ∑
x
x
x (32)
这些概率模型可以根据最大似然原理利用牛
顿法进行回归计算[11]。函数 fj可以灵活选择不同的
模式。式(27)比较适用于 xi在连续域中取值的情
况。对于离散型变量, 采用非线性累积函数比较合
理。如果回归变量中既有连续域变量 x∈ix ,又有
离散变量 z∈jz ,可以根据不同应用情况选择如下
构造类型:
(1)对 x进行线性建模,而对 z取非线性函数,
T
0
( )
m
j j
j
η g z
=
= +∑w x
(2)对 x和 z采用不同的非线性函数,
∑∑
==
+=
m
j
jj
n
i
ii zgxfη
00
)()(
(3)利用多变量非线性函数,
∑∑
==
+=
m
j
jjj
n
i
ii vzgxfη
00
),()(
其中 v∈jv 为另一组离散变量。
由于可以有灵活多样的构造形式,累积 Logistic
回归是处理多维多分类定性数据的较好方法。但要
求通过对数据对象进行仔细研究后,选用合适的构
造形式,以保证合理的回归效果。
国内的一些研究中,由于没有对多分类累积
Logistic 回归模型背后的理论依据做详细研究,为
离散二分类型变量定义了一个适合于连续域变量的
模型,其合理性值得进一步探讨。
累积回归的方法也可以方便地应用于其他指
数族概率模型,例如:
(1)对于常规线性回归,
0
( ) ( )
n
i i
i
η F f xµ
=
= = = ∑x (33)
其中 µ 为高斯分布期望,参见式(19);
(2)对于计数即泊松数据,
0
log( ) ( ) ( )
n
i i
i
η F f xµ
=
= = =∑x (33)
其中 µ为指数分布期望。
当然这些并不属于累积 Logistic 回归模型,因
此这里不做详细讨论。
4 结术语
在 Logistic回归分析中,回归模型以及 cost函
数或似然函数的选取往往与某种概率分布或概率模
型相关联。模型构造尤其是累积模型构造技巧性很
强。应在充分理解模型理论背景、特性和概率假定
的前提下,根据应用中实际问题和数据的具体情况,
选择恰当模型并进行合理构造,利用有效的 cost函
数或似然函数进行回归分析,以保证合理的回归效
果。本文通过阐述回归分析与概率假定的关系,并
把回归模型纳入广义线性模型框架进行推导和分
析,便于全面了解回归模型及其理论依据和构造方
法,以利于对回归模型的合理应用。
参考文献:
[1] 张庆武, JOHNSON C A, 李 燕. 影响初一学生吸烟的外在因素分
析[J]. 中国公共卫生, 1999,(15): 711-713.
[2] 金水高. Logistic 回归方法的正确应用及结果的正确解释[J]. 中华预
防医学杂志, 2003, 37(3): 204-206.
[3] 杨 肇, 朱凯旋. Logistic 回归分析中的过度离散现象及纠正[J]. 中
国卫生统计, 2003, 20(4): 239-240.
[4] 韩俊林, 汤秋云. Logistic回归模型的Bayes分析[J]. 山西师范大学学
报(自然科学版), 2004, 18(1): 16-18.
[5] XU X, FRANK E. Logistic regression and boosting for labeled bags of
instances [J]. Lecture Notes in Computer Science, 2004, 3 056: 272-281.
[6] 熊 巍, 赵海娟, 程红莉. 累积 Logistic 回归在企业竞争力评价中的
应用[J]. 统计与信息论坛, 2004, 19(1): 85-88.
[7] 张 虎, 刘 强. 问卷调查分析中的 Logistic回归与自变量筛选问题
研究[J]. 中南财经政法大学学报, 2003, (5): 128-132.
[8] CASELLA G, BERGER R. Statistical Inference [M]. Thomsoan
Learning. 2002.
[9] HOFMANN T. Introduction to Machine Learning [M]. Draft Version
1.1.5, 2003.
[10] HASTIE T, TIBSHIRANI R. Generalized Additive Models [M]. Ency-
clopedia of Statistical Sciences, 1996
[11] FRIEDMAN F, HASTIE T, TIBSHIRANI R. Additive Logistic Regre-
ssion: a Statistical View of Boosting [M]. 1998.