Logistic回归模型分析

Logistic回归模型分析第 14卷第 3期计算机辅助工程 Vol. 14 No. 3 2005年 9月 COMPUTER AIDED ENGINEERING Sep. 2005 文章编号：1006-0871(2005)03-0074-05 Logistic回归模型分析施朝健 1, 2，张明铭 1 ...

第 14卷第 3期计算机辅助工程 Vol. 14 No. 3 2005年 9月 COMPUTER AIDED ENGINEERING Sep. 2005 文章编号：1006-0871(2005)03-0074-05 Logistic回归模型分析施朝健 1, 2，张明铭 1 （1.上海海事大学商船学院，上海 200135；2.复旦大学信息工程学院，上海 200433）摘要：对 Logistic 回归模型做了比较详细的分析。通过阐述回归分析与概率假定的关系，并把回归模型纳入广义线性模型框架进行推导和分析，便于全面了解回归模型及其理论依据和构造方法，以利于对回归模型的合理应用。关键词：Logistic回归；广义线性模型；概率模型中图分类号：O212.1; TP274 文献标识码：A Analysis of Logistic regression models SHI Chaojian1, 2, ZHANG Mingming1 (1. Merchant Marine College, Shanghai Maritime Univ., Shanghai 200135, China; 2. College of Inf. Eng., Fudan Univ., Shanghai 200433, China) Abstract: Logistic regression model is analyzed in detail. By illustrating the relation between regression analysis and its probability hypothesis, analyzing and deducing regression models which are performed in the framework of generalized linear models, a thorough understanding of the theoretical background and construction methods is of benefit to the reasonable applications of these models. Key words: Logistic regression; generalized linear model; probabilistic models 0 引言 Logistic 回归分析作为一种有效的数据处理方法被广泛应用，尤其在医学、社会调查、生物信息处理等领域。在国内，对 Logistic 回归的研究主要集中在应用方面，但许多研究人员在应用 Logistic 回归算法时，很少仔细探究其背后的理论模型和有关假定，因而会出现应用不太合理的情况。例如，在利用 Logistic 回归研究影响初中学生开始吸烟的因素时，采用整群抽样的方法，在城市及郊区的学校各选择初一年级一个班的全部学生进行调查。[1] 该方法没有考虑到学生之间的吸烟行为是互相影响的，即研究个体之间不是独立的。其合理性受到质疑。[2]也有少部分研究涉及 Logistic 回归模型的理论问题。文献[3]注意到 Logistic回归模型中的过度离散现象，提出通过 Pearson和 Deviance统计量和利用Williams法进行纠正的方法。文献[4]对Logistic 回归模型进行分析，应用 Bayes 观点讨论 Logistic 模型中的参数估计问题。近年来，Logistic回归的应用研究在继续拓展。国外开始进行将其应用于多实例标签包（labeled bag of instances）分类问题的研究。[5]国内也开始注收稿日期：2005-08-01；修回日期：2005-08-13 基金项目：上海市重点学科建设项目（T0603）作者简介：施朝健(1957- )，男，福建屏南人，教授，博导，研究方向为交通信息工程及控制，(E-mail) cjshi@shmtu.edu.cn 第 3期施朝健，等：Logistic回归模型分析 75 意应用累积Logistic回归尤其是多分类累积Logistic 回归分析和处理的相关问题，但应用还是比较初步的，研究集中在对进行聚类分析后的离散性变量，利用线性系数模型进行累积 Logistic回归。[6, 7] 在现有的统计教科书中，一般都有 Logistic 回归模型的内容，但往往不作为中心内容，缺乏有关该方法的详尽讨论。[8]机器学习的书籍虽然涉及到 Logistic回归，但没有进行深入讨论。[9]有关专著在国内外很少。因此有必要对该模型的理论背景和框架进行较为深入的探讨，以便做到合理应用该模型。 1 线性回归的概率关联利用最小二乘法进行线性回归，定义 cost函数为： ( ) T ( ) 2 1 1( ) ( ) 2 n i i i J y = = −∑w w x （1）这个定义其实隐含着样本点回归误差服从一定概率分布的假定。假设样本数对（x(i), y(i)）间关系由如下线性函数表达： ( ) T ( ) ( )i i iy ε= +w x （2）其中 )(iε 表示误差值，设该误差值为 IID随机变量并服从高斯分布，其密度函数为： ⎠ ⎞ ⎜⎜⎝ ⎛ − = 2 2)( ) ( 2 )( exp 2 1) ( σ ε σ π ε iip （3）这意味着在给定 x(i)和 w(i)的条件下，y(i)的概率密度为： ( ) T ( ) 2 ( ) ( ) 2 1 ( )( | ; ) exp 22π i i i i yp y σσ ⎛ ⎞− = −⎜ ⎟⎝ ⎠ w xx w （4）令， ⎥⎥ ⎥⎥ ⎥ ⎦ ⎤ ⎢⎢ ⎢⎢ ⎢ ⎣ ⎡ = ⎥⎥ ⎥⎥ ⎥ ⎦ ⎤ ⎢⎢ ⎢⎢ ⎢ ⎣ ⎡ = )( (2) (1) T)( T)2( T)1( )( )( )( nn y y y MM Y x x x X 在给定 X，w 的条件下，Y 的概率可表示为 p(Y|X;w)，将这个概率看成 w 的函数，我们称之为似然函数(likelihood function)， ( ) ( ; , ) ( | ; )L L p= =w w X Y Y X w （5）在 )(iε 独立分布的假定下，给定 x(i)的条件下 y(i)独立分布，这样可写成: ( ) ( ) 1 ( ) T ( ) 2 2 1 ( ) ( | , ) 1 ( )exp 22π n i i i i in i L p y y σσ = = = ⎛ ⎞− = −⎜ ⎟⎝ ⎠ ∏ ∏ w x w w x （6）给出表示 x(i)，y(i)关系的概率模型，根据最大似然原理(principle of maximum likelihood)，为合理拟合数据应选取 w使得 L(w)最大化，但计算比较烦琐，取 L(w)的对数作为对数似然（log likelihood）l(w)以简化最大值分析， ( ) T ( ) 2 2 1 ( ) T ( ) 2 2 1 ( ) T ( ) 2 2 1 ( ) log ( ) 1 ( ) log exp 22π 1 ( ) log exp 22π 1 1 1 log . ( ) 22π i in i i in i n i i i l L y y n y σσ σσ σσ = = = = ⎛ ⎞− = −⎜ ⎟⎝ ⎠ ⎛ ⎞− = −⎜ ⎟⎝ ⎠ = − − − ∏ ∑ ∑ w w w x w x w x （7）从对数函数的性质知，当 l(w)最大时，相应使 L(w) 最大。由（7）式可以看出，要使 l(w)达到最大，相当于使 ( ) T ( ) 2 1 1 ( ) 2 n i i i y = −∑ w x （8）最小，对照（1）式可知，（8）式即最小二乘法的 cost函数 J(w)。 2 Logistic回归 cost函数的分析在回归问题中如果响应 y为二值性的，便实际成为分类问题，即所谓二分类问题。为了使问题分析得更直观些，假定 y的取值为 0或１。 Logistic 回归是解决这种二分类问题的有效方法之一。该法也是在一定的概率模型假定下推出的。首先考察函数： T T 1( ) ( ) 1 e h g − = = + w w x x w x （9）其中， 1( ) 1 e z g z − = + 称为 Logistic函数或 sigmoid 函数。假定在给定 x;w 的条件下，y=1 出现的概率服从伯努利分布，并可表示为： ( 1| ; ) ( ) ( 0 | ; ) 1 ( ) p y h p y h = = = = − w w x w x x w x 如上两式可合并为紧凑形式： 1( | ; ) ( ) (1 ( ))y yp y h h −= −w wx w x x （10）其中 }1,0{∈y 。在 m个独立样本数对情况下，样本数据的似然函数为： ( ) ( ) ( ) ( ) ( ) 1 ( ) ( ) 1 1 ( ) ( ; ) ( | ; ) ( ) (1 ( ))) i i n i i i n yi i y i L p p y h h = − = = = = − ∏ ∏ w w w Y | X w x w x x （11）同样，为计算方便，取对数似然： 76 计算机辅助工程 2005年 ))(1log()1()(log )(log)( )()()( 1 )( iii n i i hyhy Ll xx ww ww −−+= = ∑ = （12）合理回归就是恰当选择 w使得 l(w)达到最大，即式（12）可以作为回归的指标函数。在式（12）中令 2 1 )(i i yy += 使 { }1,1−∈iy ，同时，令： ( )( )iip h= w x 则容易推出指标函数在 yi 的取值为{-1,1}时的另一种表达方式[9]: 1 1 1( ) log log(1 ) 2 2 ( 1| ; ) n i i i i i i i y yJ p p p P = + − = − + − ≡ = ∑w Y x w （13）对于式（12）的似然函数 l(w)，回归时应使之最大化，上式右边取负值使 J(w)成 cost 函数，回归时应使之最小化。下面推导式（12）的似然函数 l(w)的梯度，为了运算方便，先考虑一个数对{x=x(i); y=y(i)}的情况, 对该式求 w∈jw 的偏导, ( ) ( ) ( ) j j j jj xhy xgygy w gg g y g y g wg y g yl w ))(( ))(1)(1(( ))(1)(( )(1 11 )( 1 )( )(1 11 )( 1)( TT TTT TT T TT x xwxw xwxwxw xwxw xw xwxw w w−= −−−= ∂ ∂ − ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ − −−= ∂ ∂ ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ − −−= ∂ ∂ （14）上述推导过程用到 sigmoid 函数的导数公式： 2 1( ) .e (1 e ) 1 1 . 1 1 e 1 e ( )(1 ( )) z z z z g z g z g z − − − − ′ = + ⎛ ⎞ = −⎜ ⎟+ +⎝ ⎠ = − （15）考虑到微分算子的线性性质，得出对数似然函数的梯度： ( ) ( ) 1 ( ) ( ( )) n i i i i l y h x = ∇ = −∑ ww x （16）同样，在式（16）中，令 )( 2 1 )( )( i i i i hp yy xw= + = 则推出对数似然函数的梯度在 yi 的取值为{-1,1}时的另一表达[9]： ( ) 1 1( ) ( ) 2 in i i i yJ p x = +∇ = −∑w (17) 3 Logistic回归的推广模型 3.1 广义线性模型为了使推导过程简明清晰, 本节只考虑 x 为单变量 x的情形, 不失一般性, 结果可以推广到x为向量的情况。在线性回归中假定概率模型： ),(~);( 2σµθ Nxp 而在二分类 Logistic回归中，假定概率模型： ( ; ) ~ Bernoulli ( )p x θ φ 事实上这些模型可以泛化为一类模型族，称为广义线性模型。广义线性模型可以通过如下指数族概率模型来表达： ))()(exp()();( T ηηη axTxbxp −= （18）其中 x，η 和 T 根据应用情况可以是标量或矢量。线性回归模型和二分类 Logistic 回归模型可以归为广义线性模型的两个特例。对于线性回归模型： 2 2 2 1 1( ; ) exp ( ) 22π 1 1 1 exp . exp 2 22π p x x x x µ µ µ µ ⎛ ⎞ = − −⎜ ⎟⎝ ⎠ ⎛ ⎞ ⎛ ⎞ = − −⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ （19）对照式（18）可知，在广义线性模型中，令 2 2 ( ) (1/ 2π ) exp( / 2) ( ) ( ) / 2 b x x T x x a η µ η µ = − = = = 便可由广义线性模型得到线性回归模型的概率模型。对于二分类 Logistic回归模型： ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ −+⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ ⎟⎟⎠ ⎞⎜⎜⎝ ⎛ − = −−+= −= − )1log( 1 logexp ))1log()1(logexp( )1();( )1( φφ φ φ φφφ x xxx xp xx （20）同样，在广义线性模型中，令 log( ) 1 ( ) ( ) log(1 ) log(1 e ) ( ) 1 T x x a b x η φη φ η φ − = − = = − − = − = 便得到二分类 Logistic回归的概率模型。还有许多其他分布也属于广义线性模型家族。如伽玛分布，非负二项式分布等，许多累积模型 (additive model)也往往属于这个家族。[10] 下面考察多分类 Logistic回归模型。第 3期施朝健，等：Logistic回归模型分析 77 3.2 多分类Logistic回归模型考虑响应变量 y可以取 k个值之一的多类分类问题。即 },,2 ,1{ ky K∈ 对于这类问题需要 k－1个参数 121 ,,, −kφφφ K ，其中： ),( φφ iypi == 且 ∑− = −== 1 1 1)( k i ikyp φ 注意 kφ 并非真正的参数，它可由 121 ,,, −kφφφ K 确定。为方便起见，引入变量 1 1 0 0 0 0 1 0 0 , , , , 0 0 0 0 0 0 1 0 k− ⎧ ⎫⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎪ ⎪⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎪⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎪⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= ⊆⎨ ⎬⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎪⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎪⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎪⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎩ ⎭ y% L M M M M R 同时引进如下定义的指示函数： 1{True}=1 1{False}=0 例如：1{2=1+1},1{1+3}=0。利用指示函数，y和 y~之间的关系可表示为： { }i y i= =y% 1 于是我们有： 1 i11 2 { 1} { 2} { } 1 2 1 1 2 T ( ; ) . exp( a( )) k i y y y k k k p x φ φ φ φ φ φ φ η − = = = = − = ∑ = = − 1 1 1 yy y η y %% % L % （21）其中， 1 2 1 log( / ) log( / ) log( / ) ( ) log( ) k k k k ka φ φ φ φ φ φ φ − ⎡ ⎤⎢ ⎥⎢ ⎥ = ⎢ ⎥⎢ ⎥⎣ ⎦ = − η η M 对照式（18）可知，多分类问题也属于指数族模型，其中 b(y)=1，T(y)= y~。由 k i iη φ φ log= 我们有： e iη i k φ φ= （22）定义： 0log == k k kη φ φ （23）对式（22）两边求和： 1 2 1 1e j k η k j k k φ φ φ φ φ = + + + = =∑ K 即 ∑ = = k j ηk je 1 1φ 代入式（22）并整理，得： 1 e e i j η i k η j φ = = ∑ （24）式（24）可以作为多分类回归的通用模型，通过合理设定η并根据最大似然原理进行相关匹配，可解决一般多分类问题。对式（24），进一步假定 iη 与 x 为线性关系。即： T ( 1, 2, , 1)iη i k= = −w x K 其中 w1, w2,…, wk-1 为多类回归模型参数。定义 wk=0，从而使 0=kη 以满足式（23）定义，于是得到多类 Logistic回归的概率模型： T T 1 e( | ; ) e i jk j p y i = = = ∑ w x w x x w （25）由这个概率模型，可用前面所述的最大似然原理进行多类 Logistic回归。容易看出，在 k=2的情况下，可由式（25）导出式（9）即二分类模型。 3.3 累积Logistic回归在二分类 Logistic 回归中采用的概率模型为式（9），该式可以改写为： T( )log 1 ( ) h h ⎛ ⎞ =⎜ ⎟ −⎝ ⎠ w w x w x x （26）对照式（20），可以看出上式左边就是二分类 Logistic 回归表示成广义线性模型中的 η参量。也就是说，在二分类 Logistic回归中，假设η与 x成线性关系。即 T 0 0 1 1 2 2 n nη w x w x w x w x= = + + + +w x K （27）其中 x0=1。将上式的线性项以更一般的函数 fj(xj)取代，得到： 0 1 1 2 2( ) ( ) ( ) ( ) ( )o n nη f x f x f x f x F= + + + + = xK （28）代回式（9），则得到二分类累积 Logistic回归模型： ( ) 1( ) ( ) 1 e F h p − = = +w x x x （29）或 ( ) ( ) e( ) 1 e F Fp = + x xx （30）其中 p(x)为给定 x条件下 y=1 的概率。事实上，fi就是 wixi，因此式（27）也可以构成累积 Logistic 回归模型，可称之为累积 Logistic 回归的线性系数模型。对于多分类累积 Logistic 回归，同样可以用一般函数 78 计算机辅助工程 2005年 ,0 0 ,1 1 ,2 2 n , , i 0 ( ) ( ) ( ) ( ) ( ) ( ) j j j j j n n j i i F f x f x f x f x f x = = + + + + =∑ x K （31）取代式（25）中的线性项 xwTj ，从而得到多分类累积 Logistic回归的概率模型。 ( ) ( ) 1 e( ) e j j F k F j p = = ∑ x x x （32）这些概率模型可以根据最大似然原理利用牛顿法进行回归计算[11]。函数 fj可以灵活选择不同的模式。式（27）比较适用于 xi在连续域中取值的情况。对于离散型变量, 采用非线性累积函数比较合理。如果回归变量中既有连续域变量 x∈ix ，又有离散变量 z∈jz ，可以根据不同应用情况选择如下构造类型：（1）对 x进行线性建模，而对 z取非线性函数， T 0 ( ) m j j j η g z = = +∑w x （2）对 x和 z采用不同的非线性函数， ∑∑ == += m j jj n i ii zgxfη 00 )()( （3）利用多变量非线性函数， ∑∑ == += m j jjj n i ii vzgxfη 00 ),()( 其中 v∈jv 为另一组离散变量。由于可以有灵活多样的构造形式，累积 Logistic 回归是处理多维多分类定性数据的较好方法。但要求通过对数据对象进行仔细研究后，选用合适的构造形式，以保证合理的回归效果。国内的一些研究中，由于没有对多分类累积 Logistic 回归模型背后的理论依据做详细研究，为离散二分类型变量定义了一个适合于连续域变量的模型，其合理性值得进一步探讨。累积回归的方法也可以方便地应用于其他指数族概率模型，例如：（1）对于常规线性回归， 0 ( ) ( ) n i i i η F f xµ = = = = ∑x （33）其中 µ 为高斯分布期望，参见式（19）; （2）对于计数即泊松数据， 0 log( ) ( ) ( ) n i i i η F f xµ = = = =∑x （33）其中 µ为指数分布期望。当然这些并不属于累积 Logistic 回归模型，因此这里不做详细讨论。 4 结术语在 Logistic回归分析中，回归模型以及 cost函数或似然函数的选取往往与某种概率分布或概率模型相关联。模型构造尤其是累积模型构造技巧性很强。应在充分理解模型理论背景、特性和概率假定的前提下，根据应用中实际问题和数据的具体情况，选择恰当模型并进行合理构造，利用有效的 cost函数或似然函数进行回归分析，以保证合理的回归效果。本文通过阐述回归分析与概率假定的关系，并把回归模型纳入广义线性模型框架进行推导和分析，便于全面了解回归模型及其理论依据和构造方法，以利于对回归模型的合理应用。参考文献： [1] 张庆武, JOHNSON C A, 李燕. 影响初一学生吸烟的外在因素分析[J]. 中国公共卫生, 1999,(15): 711-713. [2] 金水高. Logistic 回归方法的正确应用及结果的正确解释[J]. 中华预防医学杂志, 2003, 37(3): 204-206. [3] 杨肇, 朱凯旋. Logistic 回归分析中的过度离散现象及纠正[J]. 中国卫生统计, 2003, 20(4): 239-240. [4] 韩俊林, 汤秋云. Logistic回归模型的Bayes分析[J]. 山西师范大学学报(自然科学版), 2004, 18(1): 16-18. [5] XU X, FRANK E. Logistic regression and boosting for labeled bags of instances [J]. Lecture Notes in Computer Science, 2004, 3 056: 272-281. [6] 熊巍, 赵海娟, 程红莉. 累积 Logistic 回归在企业竞争力评价中的应用[J]. 统计与信息论坛, 2004, 19(1): 85-88. [7] 张虎, 刘强. 问卷调查分析中的 Logistic回归与自变量筛选问题研究[J]. 中南财经政法大学学报, 2003, (5): 128-132. [8] CASELLA G, BERGER R. Statistical Inference [M]. Thomsoan Learning. 2002. [9] HOFMANN T. Introduction to Machine Learning [M]. Draft Version 1.1.5, 2003. [10] HASTIE T, TIBSHIRANI R. Generalized Additive Models [M]. Ency- clopedia of Statistical Sciences, 1996 [11] FRIEDMAN F, HASTIE T, TIBSHIRANI R. Additive Logistic Regre- ssion: a Statistical View of Boosting [M]. 1998.

                    本文档为【Logistic回归模型分析】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

Logistic回归模型分析

你可能还喜欢