首页 Logistic回归分析及应用

Logistic回归分析及应用

举报
开通vip

Logistic回归分析及应用nullnull  第十六章 Logistic回归分析     Logistic regression复习  多元线性回归 (multiple linear regression)复习  多元线性回归 (multiple linear regression) 在医学实践中,常会遇到一个应变量与多个自变量数量关系的问题。如医院住院人数不仅与门诊人数有关, 而且可能与病床周转次数, 床位数等有关;儿童的身高不仅与遗传有关还与生活质量,性别,地区,国别等有关;人的体表面积与体重、身高等有关。nu...

Logistic回归分析及应用
nullnull  第十六章 Logistic回归 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析      Logistic regression复习  多元线性回归 (multiple linear regression)复习  多元线性回归 (multiple linear regression) 在医学实践中,常会遇到一个应变量与多个自变量数量关系的问题。如医院住院人数不仅与门诊人数有关, 而且可能与病床周转次数, 床位数等有关;儿童的身高不仅与遗传有关还与生活质量,性别,地区,国别等有关;人的体表面积与体重、身高等有关。null  表1 多元线性回归分析的数据结构 实验对象 y X1 X2 X3 …. XP 1 y1 a11 a12 a13 … a1p 2 y2 a21 a22 a23 … a2p 3 y3 a31 a32 a33 … a3p … … … … … … … n yn an1 an2 an3 … anp ━━━━━━━━━━━━━━━━━━   其中:y取值是服从正态分布多元线性回归模型多元线性回归模型 通过实验测得含有p个自变量x1,x2,x3,…,xp及一个因变量y的n个观察对象值, 利用最小二乘法原理, 建立多元线性回归模型: 其中b0为截距, b1 ,b2 …bp称为偏回归系数. bi表示当将其它p-1个变量的作用加以固定后, Xi改变1个单位时Y将改变bi个单位. null logistic regression analysis(一)基本概念和原理(一)基本概念和原理 1.应用背景 Logistic回归模型是一种概率模型,适合于病例—对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类。可用影响结果变量发生的因素为自变量与因变量,建立回归方程。null 设资料中有一个因变量y、p个自变量x1, x2,…,xp,对每个实验对象共有n次观测结果,可将原始资料列成表2形式。2、Logistic回归模型的数据结构null 表2 Logistic回归模型的数据结构 实验对象 y  X1 X2 X3 …. XP 1 y1 a11 a12 a13 … a1p 2 y2 a21 a22 a23 … a2p 3 y3 a31 a32 a33 … a3p … … … … … … … n yn an1 an2 an3 … anp ━━━━━━━━━━━━━━━━━━   其中:y取值是二值或多项分类null 表3 肺癌与危险因素的调查分析 例号 是否患病 性别 吸烟 年龄 地区 1 1 1 0 30 0 2 1 0 1 46 1 3 0 0 0 35 1 … … … … … … 30 0 0 0 26 1 注:是否患病中,‘0’代表否,‘1’代表是。性别中‘1’代表男,‘0’代表女,吸烟中‘1’代表吸烟,‘0’代表不吸烟。地区中,‘1’代表农村,‘0’代表城市。 null 表4 配对资料(1:1) 对子号 病例 对照 x1 x2 x3 x1 x2 x3 1 1 3 0 1 0 1 2 0 3 1 1 3 0 3 0 1 2 0 2 0 … … … … … … … 10 2 2 2 0 0 0 注:X1蛋白质摄入量,取值:0,1,2,3 X2不良饮食习惯,取值:0,1,2,3 X3精神状况 ,取值:0,1,2 Logistic回归 -- Logistic回归与多重线性回归联系与区别Logistic回归 -- Logistic回归与多重线性回归联系与区别联系: 用于分析多个自变量与一个因变量的关系,目的是矫正混杂因素、筛选自变量和更精确地对因变量作预测等。 区别: 线性模型中因变量为连续性随机变量,且要求呈正态分布. Logistic回归因变量的取值仅有两个,不满足正态分布。3、 Logistic回归模型3、 Logistic回归模型 令: y=1 发病(阳性、死亡、治愈等) y=0 未发病(阴性、生存、未治愈等) 将发病的概率记为P,它与自变量x1, x2,…,xp之间的Logistic回归模型为: 可知,不发病的概率为: null 经数学变换得: 定义: 为Logistic变换,即: null 4、回归系数βi的意义 流行病学的常用指标优势比(odds ratio,OR)或称比数比,定义为:暴露人群发病优势与非暴露人群发病优势之比。 即Xi的优势比为: null 故对于样本资料OR=exp( ) 95%置信区间为: 可见 是影响因素Xi增加一个单位所引起的对数优势的增量,反映了其对Y作用大小。 如果要比较不同因素对Y作用大小,需要消除变量量纲的影响,为此计算MATCH_ word word文档格式规范word作业纸小票打印word模板word简历模板免费word简历 _1711705104280_0化回归系数5.假设检验5.假设检验(1)回归方程的假设检验 H0:所有 H1:某个 计算统计量为:G=-2lnL,服从自由度等于n-p 的 分布 (2)回归系数的假设检验 H0: H1:计算统计量为:Wald,自由度等于1。(二) Logistic回归类型及其实例分析(二) Logistic回归类型及其实例分析 1、非条件Logistic回归 当研究 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 为队列研究、横断面研究或成组病例对照研究时,可以用非条件Logistic回归。 实例1实例1 某研讨究者调查了30名成年人, 记录 混凝土 养护记录下载土方回填监理旁站记录免费下载集备记录下载集备记录下载集备记录下载 了同肺癌发病的有关因素情况, 数据见表4。其中是否患病中, ‘0’代表否, ‘1’代表是;性别中 ‘1’代表男, ‘0’代表女;吸烟中 ‘1’代表吸烟, ‘0’代表不吸烟;地区中, ‘1’代表农村, ‘0’代表城市。试分析各因素与肺癌间的关系。 null 表5 肺癌与危险因素的调查分析 例号 是否患病 性别 吸烟 年龄 地区 1 1 1 0 30 0 2 1 0 1 46 1 3 0 0 0 35 1 … … … … … … 30 0 0 0 26 1 注:是否患病中,‘0’代表否,‘1’代表是。性别中‘1’代表男,‘0’代表女,吸烟中‘1’代表吸烟,‘0’代表不吸烟。地区中,‘1’代表农村,‘0’代表城市。 SPSS操作步骤:SPSS操作步骤:Analyze-----Regression-----Binary Logistic -----Dependent框(y)-----Covariates框(x1,x2,…)------ok非条件Logistic回归 SPSS操作步骤:nullnull单因素分析的结果单因素分析的结果 结果表明, 性别, 吸烟, 年龄三个因素都与肺癌有关. 由于在对某一因素进行单因素分析时没有控制其它因素的干扰, 因此结果不可靠.多因素分析的结果多因素分析的结果nullnull 由上最大似然估计分析知因素X2(吸烟), X3(年龄)对肺癌的发生有影响。 所得的回归方程为: Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X3-1.3037X4. 2.条件logistic回归分析2.条件logistic回归分析配对设计的类型:1:1、1:m、n:m (可采用分层COX模型来拟合)。 例如:某市调查三种生活因素与胃癌的关系,资料见表5。 null 表6 配对资料(1:1) 对子号 病例 对照 x1 x2 x3 x1 x2 x3 1 1 3 0 1 0 1 2 0 3 1 1 3 0 3 0 1 2 0 2 0 … … … … … … … 10 2 2 2 0 0 0 注:X1蛋白质摄入量,取值:0,1,2,3 X2不良饮食习惯,取值:0,1,2,3 X3精神状况 ,取值:0,1,2 配对Logistic回归SPSS操作步骤:配对Logistic回归SPSS操作步骤:Analyze-----Survival----COX Regression-----Time框(outcome)-----Status框( Status ) -----Define Event:Single value 1:continue-----Covariates框(x1、x2、x3)-----Strata框(id)---Options---at last step------oknullnullnullnullnullnullnull3、逐步Logistic回归分析3、逐步Logistic回归分析 (1)向前法(forward selection) 开始方程中没有变量,自变量由少到多一个一个引入回归方程。按自变量对因变量的贡献(P值的大小)由小到大依次挑选,变量入选的条件是其P值小于规定进入方程的P界值Enter, 缺省值 P(0.05)。 (2)后退法(backward selection)(2)后退法(backward selection) 开始变量都在方程中,然后按自变量因变量的贡献(P值的大小)由大到小依次剔除,变量剔除的条件是其P值小于规定的剔除标准Remove, 缺省值 p(0.10)。 (3)逐步回归法 逐步引入-剔除法(stepwise selection)(3)逐步回归法 逐步引入-剔除法(stepwise selection) 前进逐步引入-剔除法 是在前进法的思想下,考虑剔除变量, 因此有两个p界值Enter, Remove。null 无论是条件还是非条件Logistic回归,在多变量分析时均可以采用逐步回归方法,实现的方法是:在 model后加选项:/selection=forward、backward或stepwise 再给出SLE, SLS的界值。 调试法:P从大到小取值0.5,0.1,0.05…, 一般实际用时, SLE,SLS应多次选取调整解 释解 释 设第i个因素的回归系数为bi,表示当有多个自变量存在时,其它自变量固定不变的情况下,自变量Xi每增加一个单位时,所得到的优势比的自然对数。也就是其它自变量固定不变的情况下,自变量Xi每增加一个单位时,影响因变量Y=0发生的倍数。 当bi>0时,对应的优势比(odds ratio,记为ORi):ORi=exp(bi)>1,说明该因素是危险因素;当bi<0时,对应的优势比ORi=exp(bi)<1,说明该因素是保护因素。 null 在本例中不良饮食习惯X2 ,取值:0、1,2、3,b=1.2218, OR=3.393,表示不良饮食习惯是危险因素;精神状况X3 ,取值:0、1、2,b=2.2947, OR=9.922,表示精神状况是危险因素。null SPSS无论是条件还是非条件Logistic回归,在多变量分析时均可以采用逐步回归方法,实现的方法是: 在 method后加选项: Enter:所有变量一次全部进入方程。 Forward:逐步向前法 Backward:后退法 变量移出方程所采取的检验方法: Conditional; LR; Ward(尽量不用)null二分类Logistic回归二分类Logistic回归SPSS 软件实现方法SPSS 软件实现方法 File→Open→相应数据(已存在)→ Analyze→ Regression→Binary Logistic→ Dependent(y)→Covariates (自变量)→ Mothod(逐步回归方法)→Specify model(单因素或多因素) →save(欲保存的内容)→Options(输出选项)→OK null 调试法:P从大到小取值0.5,0.1,0.05…, 一般实际用时,Enter、Remove应多次选取调整nullBlock 1: Method = Forward Stepwise (Likelihood Ratio)nullnullnullnullnull4.Logistic回归-- Logistic回归种类4.Logistic回归-- Logistic回归种类对于成组资料的非条件Logistic回归对于成组资料的非条件Logistic回归(1)两分类反应变量的Logistic回归 nullnull自变量分为以下情况:   定量资料时,直接计算;   二值时,化为0与1或1与2;   有序多分类:有线性规律时连续赋值         0,1,2,….         无线性规律按无序多分类  无序多分类:需要先转换成n-1个哑变量,以        哑变量进行分析。 nullnullnullnull二分类Logistic回归—多重比较的方法二分类Logistic回归—多重比较的方法Indicator—第一类或最后一类为参照类,每一类与 参照类比较 Simple------除参照类外,每一类与参照类比较 Difference-除第一类外,每一类与其前各类的平均 效应比较,有称反Helmert Helmert----除最后一类外,每一类与其后各类的平均 Repeated—相邻两类比较,除第一类外,每类与其前一 比较 Polynominal—正交多名义分类比较,该法假设每一分类都 有相等的空间,仅适于数值变量 Deviation—除参照类外,每一类与总效应比较null nullnull(2)多分类无序反应变量Logistic回归*nullnull(3)多分类有序反应变量Logistic回归*null练习练习 据报道目前全世界每年的自杀率为10/10万,我国自杀率为23/10万,我国高校自杀率则为2/10万。为了了解当代大学生综合素质现状、为了进行提高大学生综合素质的对策研究,利用中国现场统计研究会教育统计与管理专业学会设计的《中国大学生综合素质调查问卷》,采用分层整群抽样,选择了不同年级、不同性别、不同专业以及不同生源的医学大学生554名的调查问卷,其中129人有过自杀的意念。应用 Logistic回归分析,探讨大学生有自杀意念的影响因素。 部队3所院校,1121份有效问卷、 地方3所院校1874份有效问卷。 部队3所院校,1121份有效问卷、 地方3所院校1874份有效问卷。 表8 各校有效问卷情况 单 位 有效问卷份数 军队: 北京军医学院 554 海军工程大学 450 解放军信息工程大学 117 地方:同济医学院 778 中国科技大学 628 广西工学院 468 null 1. 各项目的名称及量化方法 在《中国大学生综合素质调查问卷》中又增加的2个小题记为A01,A02。基本情况A共有21项,分别记为A1,A2,…,A21。当有的项目中又分为2项时再分别赋予不同的名称,如A10父母亲文化程度分为:父亲文化程度A10.1、母亲文化程度A10.2。其它项目的名称以此类推。 null 利用EXCEL将调查问卷各项进行量化:有序的项目按照顺序赋值0,1,2,……;两分类无序项目赋值0和1;多项无序和多选项目,根据例数多少进行合并成两项或引进哑变量。去掉了几项人数少或不容易量化的个别多选题:A9.1父亲职业、A9.2母亲职业、B16加入WTO后大学生最应具备的素质、B17在当代大学生中你认为普遍欠缺的东西、C10.1对学习吃力的再回答、C19.1决定考研者进一步需回答、C21.1-C21.3参与过科研或社会实践者进一步需回答的问题。最终确定的变量个数是:A类有22个、B类有17个、C类有38个、D类有32个、E类有20个,总计129个变量。 null 大学生产生自杀念头的影响因素和程度按入选顺序依次是: ▲ 抚养人对其关爱是不关爱方向的0.326倍; ▲ 考试作弊严重的是不作弊方向的1.405倍; ▲ 当认定一个目标能够尽力去做并持之以恒 的是时做时不做方向的0.734倍; ▲ 认为同学中考试作弊人数多的是少方向的 1.295倍; ▲ 对自己心理素质的评价高的是低方向的 0.553倍; null▲ 对自己各方面的综合评价高的是低方向的 2.008倍; ▲做事常半途而废是能坚持方向的1.732倍; ▲家庭幸福度自我评定高的是低方向的0.699 倍; ▲认为自己在学习上接受与理解能力强的是 不强方向的1.451倍; ▲身体健康状况较好是较差方向的0.688倍。 null 对自己心理素质评价低、身体健康状况差、做事常半途而废、认为同学中考试作弊人数多、认为考试作弊是严重的、抚养人对其不关爱、家庭不幸福、认为自己在学习上接受与理解能力强、身体健康状况差、当认定一个目标不能持之以恒者,容易产生自杀的念头。归纳起来主要是:个人精神健康问题、生长环境两大因素。 Logistic 回归的注意事项Logistic 回归的注意事项1.变量的取值形式 在作危险性因素分析时,以定性资料的形式出现为好。 2.样本含量要足够大 一般地:病例与对照研究应至少各有30-50例,且变量越多例数也要增多;配对资料样本的匹配组数应为纳入方程中自变量个数的20倍以上。 3.大多数情况下模型的常数项没有多大的意义,所以不用对常数项作解释; 4.条件Logistic回归不能用于预测.
本文档为【Logistic回归分析及应用】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_500408
暂无简介~
格式:ppt
大小:1MB
软件:PowerPoint
页数:0
分类:金融/投资/证券
上传时间:2012-12-09
浏览量:48