Logistic回归模型

Logistic回归模型Logistic回归模型 1 Logistic回归模型的基本知识 1.1 Logistic模型简介主要应用在研究某些现象发生的概率，比如股票涨还是跌，公司成功或失败的概率，以及讨论概率与那些因素有关。显然作为概率值，一定有，因此很难用线性模型描述概率与自变量的关系，另外如果接近两个极端值，此时一般方法难以较好地反映p的微小变化。为此在构建与自变量关系的模型时，变换一下思路，不直接研究，而是研究的一个严格单调函数，并要求在接近两端值时对其微小变化很敏感。于是Logi...

Logistic回归模型 1 Logistic回归模型的基本知识 1.1 Logistic模型简介主要应用在研究某些现象发生的概率，比如股票涨还是跌，公司成功或失败的概率，以及讨论概率与那些因素有关。显然作为概率值，一定有，因此很难用线性模型描述概率与自变量的关系，另外如果接近两个极端值，此时一般方法难以较好地反映p的微小变化。为此在构建与自变量关系的模型时，变换一下思路，不直接研究，而是研究的一个严格单调函数，并要求在接近两端值时对其微小变化很敏感。于是Logit变换被提出来：（1）其中当从时，从，这个变化范围在模型数据处理上带来很大的方便，解决了上述面临的难题。另外从函数的变形可得如下等价的公式：（2）模型(2)的基本要求是，因变量（y）是个二元变量，仅取0或1两个值，而因变量取1的概率就是模型要研究的对象。而，其中表示影响的第个因素，它可以是定性变量也可以是定量变量，。为此模型(2)可以表述成：（3）显然，故上述模型表明是的线性函数。此时我们称满足上面条件的回归方程为Logistic线性回归。 Logistic线性回归的主要问题是不能用普通的回归方式来分析模型，一方面离散变量的误差形式服从伯努利分布而非正态分布，即没有正态性假设前提；二是二值变量方差不是常数，有异方差性。不同于多元线性回归的最小二乘估计法则(残差平方和最小)，Logistic变换的非线性特征采用极大似然估计的方法寻求最佳的回归系数。因此评价模型的拟合度的标准变为似然值而非离差平方和。定义1 称事件发生与不发生的概率比为优势比(比数比 odds ratio 简称OR)，形式上表示为 OR= （4）定义2 Logistic回归模型是通过极大似然估计法得到的，故模型好坏的评价准则有似然值来表征，称 -2 为估计值的拟合似然度，该值越小越好，如果模型完全拟合，则似然值为1，而拟合似然度达到最小，值为0。其中表示的对数似然函数值。定义3 记为估计值的方差-协方差矩阵，为的标准差矩阵，则称（5）为的Wald统计量，在大样本时，近似服从分布，通过它实现对系数的显著性检验。定义4 假定方程中只有常数项，即各变量的系数均为0，此时称（6）为方程的显著性似然统计量，在大样本时，近似服从分布。 1.2 Logistic模型的分类及主要问题根据研究设计的不同，Logistic回归通常分为成组资料的非条件Logistic回归和配对资料的条件Logistic回归两种大类。还兼具两分类和多分类之分，分组与未分组之分，有序与无序变量之分。具体如下：两分类非条件Logistic回归：分组数据的Logistic回归，未分组数据的Logistic回归；多分类非条件Logistic回归：无序变量Logistic回归，无序变量Logistic回归；条件Logistic回归：1:1型、1:M型和M:N型Logistic回归。关于Logistic回归，主要研究的内容包括： 1．模型参数的估计及检验 2．变量模型化及自变量的选择 3．模型评价和预测问题 4．模型应用 2 Logistic模型的参数估计及算法实现 2.1 两分类分组数据非条件Logistic回归因变量(反应变量)分为两类，取值有两种，设事件发生记为y=1，不发生记为 y=0，设自变量是分组数据，取有限的几个值；研究事件发生的概率与自变量的关系，其Logistic回归方程为：或例2.1.1 分组数据[1] 在一次住房展销会上，与房地产商签订初步购房意向书的有n=325人，在随后的3个月时间内，只有一部分顾客购买了房屋。购买房屋的顾客记为1，否则记为0。以顾客的年家庭收入(万元)作为自变量 ,对数据统计后如表2.1.1所示，建立Logistic回归模型。表2.1.1 购房分组数据序号年家庭收入X(万元) 签订意向人数实际购买人数 1 1.5 25 8 2 2.5 32 13 3 3.5 58 26 4 4.5 52 22 5 5.5 43 20 6 6.5 39 22 7 7.5 28 16 8 8.5 21 12 9 9.5 15 10 例2.1.2 药物疗效数据[2] 为考察某药物疗效，随机抽取220例病人并分配到治疗组和对照组，治疗组采用治疗药物，对照组采用安慰剂。治疗一段时间后观察病人的疗效，得到表2.1.2数据。设y为疗效指标(y=1 有效，y=0无效)，为治疗组指标(1为治疗组，0为对照组)，为年龄组指标(1为>45岁，0为其他)。表2.1.2 药物疗效数据序号治疗分组年龄分组有疗效无效合计 1 1 1 32 18 50 2 1 0 40 20 60 3 0 1 21 31 52 4 0 0 18 40 58 上述两个例子数据都是经过统计加工后的分组数据，对此类数据进行Logistic回归，首先要明确应变量对应事件的发生概率如何确定和进行Logit变换，其次才能建立Logistic回归。为便于数据处理，我们将此类数据的格式作个约定，排列格式为（组序号，自变量，该组事件发生数，该组总例数）。表2.1.3 分组数据的标准格式序号年家庭收入X(万元) 实际购买人数签订意向总人数 1 1.5 8 25 2 2.5 13 32 3 3.5 26 58 4 4.5 22 52 5 5.5 20 43 6 6.5 22 39 7 7.5 16 28 8 8.5 12 21 9 9.5 10 15 表2.1.1 改造表序号治疗分组年龄分组有效例数观察例数 1 1 1 32 50 2 1 0 40 60 3 0 1 21 52 4 0 0 18 58 表2.1.2 改造表经过改造后，可得我们关心的事件的发生的频率为。其中为分组数，然后作Logit变换，即。变换后的数据，形式上已经可以采用一般的线性回归的处理方式来估计回归参数了。此时方程变为：当然这样处理并没有解决异方差性，当较大时，的近似方差为：（7）所以选择权重，最后采用加权最小二乘法估计参数。注意，分组数据的Logistic回归只适用于大样本分组数据，对小样本的为分组数据不适用，并且以组数为回归拟合的样本量，明显降低了拟合精度，在实际应用中必须谨慎。求解算法及步骤： 1．依据分组数据的标准格式，计算频率、Logit变换和权重 2．构建加权最小二乘估计：（8）令，，则方程又变成一般的线性回归模型：（9） 3．构造增广矩阵利用消去法得矩阵，得到估计其中为残差平方和 , 回归方差各系数检验采用总平方和，回归平方和总平方和求解相当于拟合方程的残差平方和，故得上式ST 所以方程的检验为例2.1.1的求解过程如下（由LLLStat统计软件计算）：表2.1.4 数据Logit变换及权重家庭年收入x 实际购买mi 签订意向ni 比例pi 逻辑变换Logit 权重ni*pi(1-pi) 1.500000 8 25 0.320000 -0.753772 5.440000 2.500000 13 32 0.406250 -0.379490 7.718750 3.500000 26 58 0.448276 -0.207639 14.344828 4.500000 22 52 0.423077 -0.310155 12.692308 5.500000 20 43 0.465116 -0.139762 10.697674 6.500000 22 39 0.564103 0.257829 9.589744 7.500000 16 28 0.571429 0.287682 6.857143 8.500000 12 21 0.571429 0.287682 5.142857 9.500000 10 15 0.666667 0.693147 3.333333 表2.1.5 回归模型基本信息总样本 9 求解方法加权最小二乘仅常数项beta0 -0.095029 方程F统计量 51.982160 F分布自由度 1,7 方程检验p值 0.000176 总平方和 8.798294 回归平方和 7.754112 残差平方和 1.044181 表2.1.6 分组Logistic回归系数检验序号均值回归系数系数标准误 t统计量自由度df 检验P值常数项 2.837815 -0.848882 0.113578 -7.473994 7 0.000056 家庭年收入x 14.901140 0.149323 0.020711 7.209865 7 0.000056 表2.1.7 0.086479 -0.014517 -0.014517 0.002876 本例Logistic模型的回归方程：对于多分类无序自变量的Logistic回归，即某个自变量为m个水平的名义变量（如治疗方法A,B,C），只需要引入m-1（2个）个哑变量，然后采用上述方法进行分析。例2.1.3 研究三种治疗方法对不同性别病人的治疗效果[2]，数据如表2.1.4 表2.1.4 性别和治疗法对某病治愈情况的影响性别治疗方法有效无效总例数男 A 78 28 106 B 101 11 112 C 68 46 114 女 A 40 5 45 B 54 5 59 C 34 6 40 由于治疗方法有三种，没有等级关系，所以属于无序的名义变量，故引入两个哑变量分别代表A和B疗法，其中表示方法A, 表示方法B, 表示方法C，将上述数据转化成标准格式，得表2.1.5。表2.1.5 性别和治疗法对某病治愈情况的影响性别有效总例数 1 1 0 78 106 1 0 1 101 112 1 0 0 68 114 0 1 0 40 45 0 0 1 54 59 0 0 0 34 40 对于分类数据，也可以采用极大似然法进行参数估计，具体见2.2节最后部分内容。 2.2 两分类未分组(连续)非条件Logistic回归应变量取值为0和1，设事件发生记为y=1，否则为0，设自变量，n组观测数据记为 , 。记，，则与的Logistic回归模型是：（10）易知，是均值为的0-1型分布，其分布律为，则的似然函数和对数似然函数分别为：代入 ,得（11）记，选取的估计使得达到极大，这就是Logistic回归模型的极大似然估计，该过程的求解需要采用牛顿迭代法。

                    本文档为【Logistic回归模型】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

Logistic回归模型

你可能还喜欢