Logistic回归模型
1 Logistic回归模型的基本知识
1.1 Logistic模型简介
主要应用在研究某些现象发生的概率
,比如股票涨还是跌,公司成功或失败的概率,以及讨论概率
与那些因素有关。显然作为概率值,一定有
,因此很难用线性模型描述概率
与自变量的关系,另外如果
接近两个极端值,此时一般
方法
快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载
难以较好地反映p的微小变化。为此在构建
与自变量关系的模型时,变换一下思路,不直接研究
,而是研究
的一个严格单调函数
,并要求
在
接近两端值时对其微小变化很敏感。于是Logit变换被提出来:
(1)
其中当
从
时,
从
,这个变化范围在模型数据处理上带来很大的方便,解决了上述面临的难
题
快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题
。另外从函数的变形可得如下等价的公式:
(2)
模型(2)的基本要求是,因变量(y)是个二元变量,仅取0或1两个值,而因变量取1的概率
就是模型要研究的对象。而
,其中
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
示影响
的第
个因素,它可以是定性变量也可以是定量变量,
。为此模型(2)可以表述成:
(3)
显然
,故上述模型表明
是
的线性函数。此时我们称满足上面条件的回归方程为Logistic线性回归。
Logistic线性回归的主要问题是不能用普通的回归方式来
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
模型,一方面离散变量的误差形式服从伯努利分布而非正态分布,即没有正态性假设前提;二是二值变量方差不是常数,有异方差性。不同于多元线性回归的最小二乘估计法则(残差平方和最小),Logistic变换的非线性特征采用极大似然估计的方法寻求最佳的回归系数。因此评价模型的拟合度的标准变为似然值而非离差平方和。
定义1 称事件发生与不发生的概率比为 优势比(比数比 odds ratio 简称OR),形式上表示为
OR=
(4)
定义2 Logistic回归模型是通过极大似然估计法得到的,故模型好坏的评价准则有似然值来表征,称
-2
为估计值
的拟合似然度,该值越小越好,如果模型完全拟合,则似然值
为1,而拟合似然度达到最小,值为0。其中
表示
的对数似然函数值。
定义3 记
为估计值
的方差-协方差矩阵,
为
的标准差矩阵,则称
(5)
为
的Wald统计量,在大样本时,
近似服从
分布,通过它实现对系数的显著性检验。
定义4 假定方程中只有常数项
,即各变量的系数均为0,此时称
(6)
为方程的显著性似然统计量,在大样本时,
近似服从
分布。
1.2 Logistic模型的分类及主要问题
根据研究设计的不同,Logistic回归通常分为成组资料的非条件Logistic回归和配对资料的条件Logistic回归两种大类。还兼具两分类和多分类之分,分组与未分组之分,有序与无序变量之分。具体如下:
两分类非条件Logistic回归:分组数据的Logistic回归,未分组数据的Logistic回归;
多分类非条件Logistic回归:无序变量Logistic回归,无序变量Logistic回归;
条件Logistic回归:1:1型、1:M型和M:N型Logistic回归。
关于Logistic回归,主要研究的内容包括:
1. 模型参数的估计及检验
2. 变量模型化及自变量的选择
3. 模型评价和预测问题
4. 模型应用
2 Logistic模型的参数估计及算法实现
2.1 两分类分组数据非条件Logistic回归
因变量(反应变量)分为两类,取值有两种,设事件发生记为y=1,不发生记为 y=0,设自变量
是分组数据,取有限的几个值;研究事件发生的概率
与自变量
的关系,其Logistic回归方程为:
或
例2.1.1 分组数据[1] 在一次住房展销会上,与房地产商签订初步购房意向
书
关于书的成语关于读书的排比句社区图书漂流公约怎么写关于读书的小报汉书pdf
的有n=325人,在随后的3个月时间内,只有一部分顾客购买了房屋。购买房屋的顾客记为1,否则记为0。以顾客的年家庭收入(万元)作为自变量
,对数据统计后如表2.1.1所示,建立Logistic回归模型。
表2.1.1 购房分组数据
序号
年家庭收入X(万元)
签订意
向人数
实际购
买人数
1
1.5
25
8
2
2.5
32
13
3
3.5
58
26
4
4.5
52
22
5
5.5
43
20
6
6.5
39
22
7
7.5
28
16
8
8.5
21
12
9
9.5
15
10
例2.1.2 药物疗效数据[2] 为考察某药物疗效,随机抽取220例病人并分配到治疗组和对照组,治疗组采用治疗药物,对照组采用安慰剂。治疗一段时间后观察病人的疗效,得到表2.1.2数据。设y为疗效指标(y=1 有效,y=0无效),
为治疗组指标(1为治疗组,0为对照组),
为年龄组指标(1为>45岁,0为其他)。
表2.1.2 药物疗效数据
序号
治疗分组
年龄分组
有疗效
无效
合计
1
1
1
32
18
50
2
1
0
40
20
60
3
0
1
21
31
52
4
0
0
18
40
58
上述两个例子数据都是经过统计加工后的分组数据,对此类数据进行Logistic回归,首先要明确应变量对应事件的发生概率如何确定和进行Logit变换,其次才能建立Logistic回归。为便于数据处理,我们将此类数据的格式作个约定,排列格式为(组序号,自变量
,该组事件发生数,该组总例数)。
表2.1.3 分组数据的标准格式
序
号
年家庭收入X(万元)
实际购买
人数
签订意向
总人数
1
1.5
8
25
2
2.5
13
32
3
3.5
26
58
4
4.5
22
52
5
5.5
20
43
6
6.5
22
39
7
7.5
16
28
8
8.5
12
21
9
9.5
10
15
表2.1.1 改造表
序
号
治疗分
组
年龄分
组
有效例数
观察例
数
1
1
1
32
50
2
1
0
40
60
3
0
1
21
52
4
0
0
18
58
表2.1.2 改造表
经过改造后,可得我们关心的事件的发生的频率为
。其中
为分组数,然后作Logit变换,即
。变换后的数据,形式上已经可以采用一般的线性回归的处理方式来估计回归参数了。此时方程变为:
当然这样处理并没有解决异方差性,当
较大时,
的近似方差为:
(7)
所以选择权重
,最后采用加权最小二乘法估计参数。
注意,分组数据的Logistic回归只适用于大样本分组数据,对小样本的为分组数据不适用,并且以组数
为回归拟合的样本量,明显降低了拟合精度,在实际应用中必须谨慎。
求解算法及步骤:
1.依据分组数据的标准格式,计算频率
、Logit变换
和权重
2.构建加权最小二乘估计:
(8)
令
,
,
则方程又变成一般的线性回归模型:
(9)
3.构造增广矩阵
利用消去法得
矩阵,得到估计
其中
为残差平方和
, 回归方差
各系数检验采用
总平方和
,回归平方和
总平方和求解相当于拟合
方程的残差平方和,故得上式ST
所以方程的检验为
例2.1.1的求解过程如下(由LLLStat统计软件计算):
表2.1.4 数据Logit变换及权重
家庭年收入x
实际购买mi
签订意向ni
比例pi
逻辑变换Logit
权重ni*pi(1-pi)
1.500000
8
25
0.320000
-0.753772
5.440000
2.500000
13
32
0.406250
-0.379490
7.718750
3.500000
26
58
0.448276
-0.207639
14.344828
4.500000
22
52
0.423077
-0.310155
12.692308
5.500000
20
43
0.465116
-0.139762
10.697674
6.500000
22
39
0.564103
0.257829
9.589744
7.500000
16
28
0.571429
0.287682
6.857143
8.500000
12
21
0.571429
0.287682
5.142857
9.500000
10
15
0.666667
0.693147
3.333333
表2.1.5 回归模型基本信息
总样本
9
求解方法
加权最小二乘
仅常数项beta0
-0.095029
方程F统计量
51.982160
F分布自由度
1,7
方程检验p值
0.000176
总平方和
8.798294
回归平方和
7.754112
残差平方和
1.044181
表2.1.6 分组Logistic回归系数检验
序号
均值
回归系数
系数标准误
t统计量
自由度df
检验P值
常数项
2.837815
-0.848882
0.113578
-7.473994
7
0.000056
家庭年收入x
14.901140
0.149323
0.020711
7.209865
7
0.000056
表2.1.7
0.086479
-0.014517
-0.014517
0.002876
本例Logistic模型的回归方程:
对于多分类无序自变量的Logistic回归,即某个自变量为m个水平的名义变量(如治疗方法A,B,C),只需要引入m-1(2个)个哑变量,然后采用上述方法进行分析。
例2.1.3 研究三种治疗方法对不同性别病人的治疗效果[2],数据如表2.1.4
表2.1.4 性别和治疗法对某病治愈情况的影响
性别
治疗方法
有效
无效
总例数
男
A
78
28
106
B
101
11
112
C
68
46
114
女
A
40
5
45
B
54
5
59
C
34
6
40
由于治疗方法有三种,没有等级关系,所以属于无序的名义变量,故引入两个哑变量
分别代表A和B疗法,其中
表示方法A,
表示方法B,
表示方法C,将上述数据转化成标准格式,得表2.1.5。
表2.1.5 性别和治疗法对某病治愈情况的影响
性别
有效
总例数
1
1
0
78
106
1
0
1
101
112
1
0
0
68
114
0
1
0
40
45
0
0
1
54
59
0
0
0
34
40
对于分类数据,也可以采用极大似然法进行参数估计,具体见2.2节最后部分内容。
2.2 两分类未分组(连续)非条件Logistic回归
应变量
取值为0和1,设事件发生记为y=1,否则为0,设自变量
,n组观测数据记为
,
。记
,
,则
与
的Logistic回归模型是:
(10)
易知,
是均值为
的0-1型分布,其分布律为
,
则
的似然函数和对数似然函数分别为:
代入
,得
(11)
记
,选取
的估计
使得
达到极大,这就是Logistic回归模型的极大似然估计,该过程的求解需要采用牛顿迭代法。