首页 第6章逻辑斯蒂回归模型

第6章逻辑斯蒂回归模型

举报
开通vip

第6章逻辑斯蒂回归模型null第六章 逻辑斯蒂回归第六章 逻辑斯蒂回归Logistic回归模型Logistic回归模型对列联表的分析,独立性检验可以初步了解属性之间是否相互独立,或是否相关;通过列联表的相合性检验,可以进一步知道属性之间的相合情况,包括方向和程度; Logistic模型可以更进一步拟合属性变量之间的函数关系,以描述变量之间的相互影响。 列联表中的数据是以概率的形式把属性变量联系起来的,而概率p的取值在0与1之间,因此,要把 概率 与 之间直接建立起函数关系是不...

第6章逻辑斯蒂回归模型
null第六章 逻辑斯蒂回归第六章 逻辑斯蒂回归Logistic回归模型Logistic回归模型对列联表的分析,独立性检验可以初步了解属性之间是否相互独立,或是否相关;通过列联表的相合性检验,可以进一步知道属性之间的相合情况,包括方向和程度; Logistic模型可以更进一步拟合属性变量之间的函数关系,以描述变量之间的相互影响。 列联表中的数据是以概率的形式把属性变量联系起来的,而概率p的取值在0与1之间,因此,要把 概率 与 之间直接建立起函数关系是不合适的。即Logistic回归模型Logistic回归模型实践中, 通常随着 连续增长或连续下降,其直观的曲线形态是S型。一般有这种形状的 数学 数学高考答题卡模板高考数学答题卡模板三年级数学混合运算测试卷数学作业设计案例新人教版八年级上数学教学计划 函数 有以下形式: 称作logistic回归函数。 把以上函数线性化可以得到:Logistic回归模型Logistic回归模型因此,人们通常把p的某个函数f(p)假设为变量的函数形式,取 称之为logit函数,也叫逻辑斯蒂变换。 因此,逻辑斯蒂变换是取列联表中优势的对数。当概率在0-1取值时,Logit可以取任意实数,避免了线性概率模型的结构缺陷。 类似的处理还有probit变换和双对数变换。 其中probit变换是将概率变换为 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 正态分布的 值,形式为:Logistic回归模型Logistic回归模型双对数变换的形式为: 以上变换中以logit变换应最为广泛。 假设响应变量Y是二分变量,令 ,影响Y的因素有k个 ,则称: 为二分数据的逻辑斯蒂回归模型,简称逻辑斯蒂回归模型。其中的k个因素称为逻辑斯蒂回归模型的协变量。Logistic回归模型Logistic回归模型最重要的逻辑斯蒂回归模型是logistic线性回归模型,多元logit模型的形式为: 其中, 是待估参数。根据上式可以得到优势的值: 可以看出,参数 是控制其它 时 每增加一个单位对优势产生的乘积效应。 概率p的值:Logistic回归模型Logistic回归模型最简单的logit线性模型为: 则优势为: 以上指数关系说明: 每增加1个单位,优势变为原来的 倍; 此时的概率应为:Logistic回归模型Logistic回归模型多元logistic模型参数的估计 采用极大似然估计 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 假设n次观测中,对应 的观测有 个,其中观测值为1的有 个,观测值为0的有 个,则参数 的似然函数: 可以使用迭代法求出参数的ML估计 由于计算的复杂性,可以利用统计软件得到。Logistic回归模型Logistic回归模型【例6.1】一般认为,体质指数越大(BMI≥25),表示某人越肥胖。根据3983人的体检结果有388人肥胖,肥胖组中患心血管病的数据见表6.1,试建立体质指数与患心血管病概率的logistic回归模型。 【解】根据题目知道是一元逻辑斯蒂回归问题。运用统计软件可以对参数进行估计得到: 于是logit模型为:Logistic回归模型Logistic回归模型由得到的模型可知, 患病概率为: 当体质指数BMI变化1单位时,对数优势比将增加0.2570,优势比将增加 即: 含有名义数据的logit含有名义数据的logit前例中的协变量为定量数据,logistic回归模型的协变量可以是定性名义数据。这就需要对名义数据进行赋值。 通常某个名义数据有k个状态,则定义个变量 代表前面的k-1状态,最后令k-1变量均为0或-1来代表第k个状态。 如婚姻状况有四种状态:未婚、有配偶、丧偶和离婚,则可以定义三个指示变量M1、M2、M3,用(1,0,0)、 (0,1,0) 、(0,0,1) 、(0,0,0)或(-1,-1,-1)来对以上四种状态赋值。含有名义数据的logit含有名义数据的logit例:某地25岁及以上人中各类婚姻状况居民的死亡情况见表6.2,试建立死亡率关于年龄和婚姻状况的logit模型。 其中,A表示年龄,M1、M2、M3表示婚姻状况 于是,估计的logit方程为:含有有序数据的logit含有有序数据的logitLogit模型的协变量也可以是有序数据 对有序数据的赋值可以按顺序用数0,1,2,3,4分别表示 【例5.8】某地某年各类文化程度的死亡人数见表5.33,试建立logit模型。 建立死亡率关于年龄和文化程度的logit模型 其中A为年龄,E为文化程度含有有序数据的logit含有有序数据的logit于是,估计的logit方程为: 其中,年龄的系数0.124,说明年龄越大死亡率会越高; 文化程度的系数-0.164,说明文化程度与死亡率呈负相关,文化程度越高,死亡率越低。Logistic回归的推断Logistic回归的推断效应的置信区间 指的是参数的置信区间估计 一般可以采用 的区间形式 通过上述区间端点的指数变换得到 的区间,它是 每增加1个单位对优势的乘积效应 当n很小或拟合概率趋近0或1时,可以采用似然比检验来构造区间,该区间包含所有使原假设成立的可能值 通常可以借助软件得到这种区间Logistic回归的推断Logistic回归的推断参数显著性检验 指的是参数的显著性检验 原假设为: 检验统计量为: 同样可以采用似然比检验,甚至功效更好。该检验统计量比较了在 时对数似然函数的极大值 和不限定 时对数似然函数的极大值 。 该检验统计量为: ,在原假设下服从df=1的大样本卡方分布。 可以借助软件得到该统计量的值。Logistic回归的推断Logistic回归的推断概率的置信区间 在确定的 值下,P(Y=1)的logistic回归估计为 软件会在给出上述估计的同时,给出真实概率的置信区间。 模型估计概率的优点 可以利用样本数据进行概率的估计 但模型估计的概率比样本比例好得多,估计精度更高,因为它利用了所有数据,不仅是x确定值处的数据。Logistic回归的推断Logistic回归的推断模型的检验 比较特定模型与更复杂模型 更复杂模型可以包括非线性效应,比如二次项;有多个预测变量时可以考虑交互作用。如果更复杂模型并不拟合得更好,说明所选模型是充分的。 拟合优度检验 运用观测值和拟合值来构造偏差统计量,形式为: 卡方的df应等于观测的组数与模型参数的差,较小的统计量的值和较大的P-值说明模型拟合不错。 当至多只有几个解释变量且这些解释变量为属性变量,并且所有的单元频数不少于5时,以上统计量近似服从卡方分布。Logistic回归的推断Logistic回归的推断残差分析 当预测变量为属性变量,可以利用残差来比较观测频数和拟合频数,这需要在分组数据下进行。则比较观测值与拟合值的皮尔逊残差为: 在皮尔逊残差基础上,还有标准化残差,形式为: ,它的绝对值比皮尔逊残差的绝对值更大,近似服从标准正态分布,故常用。 标准化残差的绝对值大于2或3,说明拟合不好;多项logit模型多项logit模型前面讨论的logit模型为二分数据的情况,有时候响应变量有可能取三个或更多值,即多类别的属性变量。 根据响应变量类型的不同,分两种情况: 响应变量为定性名义变量; 响应变量为定性有序变量; 当名义响应变量有多个类别时,多项logit模型应采取把每个类别与一个基线类别配成对,通常取最后一类为参照,称为基线-类别logit.多项logit模型多项logit模型预测变量为x的基线-类别logit模型为: 模型共有J-1个方程,每个方程有不同的参数,这些效应依据与基线配对的类别而变化; 软件可以同时拟合模型中的所有方程; 不管哪个类别作为基线,对于同一对类别都会有相同的参数估计;即基线类别的选择是任意的;多项logit模型多项logit模型【例6.4】研究三个学校、两个课程 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 对学生偏好何种学习方式的影响。调查数据见表6.9: 其中,三个学校对应两个哑变量x1和x2,两个课程计划为常规(x3=1)和附加(x3=0),学习方式分为:自修(y=1)、小组(y=2)、上课(y=3) 从题目可以看出,响应变量是学习方式有三类,属于多项逻辑斯蒂回归问题。于是,建模为:多项logit模型多项logit模型应用统计软件可以得到模型的参数估计和回归方程: 然后,将x1和x3的取值代入上式,可以进一步对三个属性之间的关系加以分析。 学校2与学校3的学生在自修与上课两种学习方式上偏好相同; 学校1比学校2和3更偏好上课(1.727>0.593); 课程计划中,常规课程与附加课程相比,常规课程学生更偏好自修; 小组与上课相比,三个学校没有差别;常规课程学生更偏好小组学习。多项logit模型多项logit模型当响应变量为定性有序变量时,多项logit模型的处理会与名义变量有所不同。 有序响应变量的累积logit模型 当变量为有序变量时,logit可以利用这一点,得到比基线-类别有更简单解释的模型; Y的累积概率是指Y落在一个特定点的概率,对结果为类别j时,其累积概率为: 累积概率满足: 累积概率的模型并不利用最后一个概率,因为它必然等于1多项logit模型多项logit模型累积概率的logit为: 称为累积logit 每个累积logit均利用了所有的响应类别 【例6.5】研究性别和两种治疗方法(传统疗法与新疗法)对某种疾病疗效的影响,84个病人的数据见表6.10 由题知,疗效是一个有序变量,包括显著、较有效和无效三个值,需要建立累积logit模型。多项logit模型多项logit模型令p1,p2,p3分别表示疗效的三种情况出现的概率,在对性别和疗法赋值后,则累积logit模型为: 其中,与基线-类别logit不同的是,参数 描述了变量 对响应变量落在类j或小于j的对数优势的效应,且对所有(J-1)个累积logit都是相等的; 的情况类似。 以上性质决定了在其他变量不变的情况下, 每增加一个单位,响应变量在任意给定类别下的优势比将为 。 这一相同的比例(β)适用于每个累积概率,称为比例优势假设.多项logit模型多项logit模型应用统计软件,可以得到以上模型的参数估计和回归方程: 统计分析结论如下: 女性比男性的疗效好,其优势比为: 新疗法比传统疗法好,其优势比为: 多项logit模型多项logit模型多项logit的模型检验 与二分数据logit模型的检验相类似 与其他模型比较 拟合优度检验 累积logit模型中,有的软件给出了对每个累积概率有相同效应的比例优势假设的得分检验 通过比较对每个j有相同β的模型,和对每个j有不同βj的更复杂的模型; 当模型拟合不好时,可以采用对不同累积概率有不同效应的更一般的模型。null
本文档为【第6章逻辑斯蒂回归模型】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_881386
暂无简介~
格式:ppt
大小:342KB
软件:PowerPoint
页数:0
分类:
上传时间:2011-02-15
浏览量:79