Logistic回归分析及其应用

Logistic回归分析及其应用nullLogistic回归分析及其应用Logistic回归分析及其应用温泽淮 DME中心概述概述1967年Truelt J，Connifield J和Kannel W在《Journal of Chronic Disease》上发表了冠心病危险因素的研究，较早将Logistic回归用于医学研究。一般概念一元直线回归多元直线回归null一元直线回归模型 y = a + b x + e 多元直线回归模型 y = a + b1x1 + b2x2 + … + bkxk + e null...

nullLogistic回归分析及其应用Logistic回归分析及其应用温泽淮 DME中心概述概述1967年Truelt J，Connifield J和Kannel W在《Journal of Chronic Disease》上发表了冠心病危险因素的研究，较早将Logistic回归用于医学研究。一般概念一元直线回归多元直线回归null一元直线回归模型 y = a + b x + e 多元直线回归模型 y = a + b1x1 + b2x2 + … + bkxk + e null-4.00-2.000.002.004.00X：自变量0.000.250.500.751.00F(y) ：因变量的logit值如果一定要进行直线回归也可以做出结果，但此时效果不佳。当自变量取一定值时，因变量的预测值可能为负数。一般直线回归难以解决的问题一般直线回归难以解决的问题医学数据的复杂、多样连续型和离散型数据医学研究中疾病的复杂性一种疾病可能有多种致病因素或与多种危险因素有关疾病转归的影响因素也可能多种多样临床治疗结局的综合性简单的解决方法简单的解决方法固定其他因素，研究有影响的一两个因素；分层分析：按1~2个因素组成的层进行层内分析和综合。统计模型寻找合适的模型寻找合适的模型进行logit变换 logit(p) = ln( —— )， p为y=1所对应的概率 logit(0.1) = ln( ——— ) = ln(0.1/0.9) p1 － p0.11 － 0.1nulllogit(p) = ln( —— ) p=0或1时，此式失效以 p = r/n 代之 logit(p) = ln [ (r + 0.5) / (n – r + 0.5) ] 此称经验logistic变换以Z代上式的logit(p), Z = a + b1x1 + b2x2 + … + bkxk 称此为logistic回归模型p1 － pnull P = ez / (1 + ez ) ea+b1x1+b2x2+… +bkxk 1 + ea+b1x1+b2x2+… +bkxk 此为非条件logistic回归模型应用于成组数据的分析P =自变量取定一些值时，因变量取0、1的概率就是条件概率，对条件概率进行logistic回归，称为条件logistic回归自变量取定一些值时，因变量取0、1的概率就是条件概率，对条件概率进行logistic回归，称为条件logistic回归表达式： eb1x1+b2x2+… +bkxk 1 - eb1x1+b2x2+… +bkxk 常用于分析配比的资料P =概述小结概述小结logistic回归对因变量的比数的对数值（ logit值）建立模型因变量的logit值的改变与多个自变量的加权和呈线性关系因变量呈二项分布分析的一般步骤分析的一般步骤变量的编码哑变量的设置和引入各个自变量的单因素分析变量的筛选交互作用的引入建立多个模型选择较优的模型模型应用条件的评价输出结果的解释1.变量的编码1.变量的编码变量的编码要易于识别注意编码的等级关系改变分类变量的编码，其分析的意义并不改变。牢记编码使用变量数值标识（value labels）记录编码内容变量的编码变量的编码变量名变量标识变量值值标识 SEX 性别 1 男 2 女 EDU 教育程度 0 文盲 1 小学 2 初中及以上 nullvariable labels qnum '问卷序号' rnum '录入序号' pnum '病人编号' hnum '住院号/门诊号' chname '患者中文姓名' drugroup '组别' name '患者姓名' sex '患者性别' age '患者年龄'value labels sex 1 '男' 2 '女' /hisc 1 '是' 0 '否' 9 '无法判断' /nsex 1 '正常' 0 '异常' 9 '未检' /demdx 1 '有' 0 '无' /addx 0 '无' 1 '危险性' 2 '可能' 3 '很可能' /edu 0 ‘文盲’ 1 ‘小学程度’ 2 ‘初中及以上'2.哑变量的设置和引入2.哑变量的设置和引入哑变量，又称指示变量或设计矩阵。有利于检验等级变量各个等级间的变化是否相同。一个k分类的分类变量，可以用k-1个哑变量来表示。null哑变量的设置教育程度：文盲，小学，初中，高中以上null以高中作为参照SPSS提供的方法SPSS提供的方法Indicator: 默认。以第1 或最后1类作对照，其他每类与对照比较； Sample: 以第1 或最后1类作对照，其他每类与对照比较，但反映平均效应。 Difference: 除第1类外各分类与其前各类平均效应比较； Helmert: 除最后1类外各分类与其前各类平均效应比较； Repeated: 除第1类外各分类与其前一类比较； Polynomial: 假设类间距相等，用于数值型变量。 Deviation: 以第1 或最后1类作对照，其余每类与总效应比较。3.自变量的单因素分析3.自变量的单因素分析了解自变量与因变量的分布检验是否符合建立模型的应用条件偏离应用条件时，进行数据变换各个自变量两组间的比较计数资料计量资料双变量分析4.变量的筛选4.变量的筛选变量筛选的原则专业上考虑测量上考虑共线性问题：计算相关矩阵，相关系数0.8-0.9，则选其一。缺失数据少、测量误差低的优先选择经验上考虑双变量分析中有显著性的自变量（P ≤０.15）选择那些改变主效应的自变量变量的筛选变量的筛选变量筛选的可用方法逐步logistic回归：自动选择有显著性的自变量，不仅用于自变量的剔选，也用于交互作用项是否显著的判断。前进法：逐个引入模型外的变量后退法：放入所有变量，再逐个筛选理论上看，前进法选择变量的经验公式缺乏总体概念，当用于因素分析时，建议用后退法。当变量间有完全相关性时，后退法无法使用，可用前进法。5.交互作用的引入5.交互作用的引入交互作用的定义当自变量和因变量的关系随第三个变量的变化而改变时，则存在交互作用交互作用项的引入基于临床实际认为对结果有重要影响基于模型应用条件的分析引入两个自变量的乘积项交互作用的检验交互作用的解释6.建立多个模型6.建立多个模型饱和模型自定义的模型从饱和模型中选择自变量再建立模型7.选择较优的模型7.选择较优的模型模型拟合优度检验 AIC（Akaike information criterion）：同一资料的多个模型的比较，此值越小，模型越合适。 SC（Schwartz criterion）：同上 Score统计量：同上，但不包括截距项。 -2logL（似然比检验，Omnibus Test）：检验全部自变量的作用是否显著。较为可靠。适用于含连续性变量的情况。模型拟合好， x2值大，P值小。 Hosmer-Lemeshow检验：评价估计概率和观察概率接近的程度。适用于含连续性变量的情况。模型好， x2值小，P值大。8.模型应用条件的评价8.模型应用条件的评价残差分析残差是观察值与估计值之差合理的logistic回归模型也可能得到不理想的残差，这在自变量是二分类变量时更易出现。增加交互作用项可能增加模型的效能9.输出结果的解释9.输出结果的解释模型中各个系数的显著性检验 Wald检验：类似于直线回归系数的t检验 Wald x2检验：同上似然比检验：自变量不在模型中与在模型中的似然值比较。 Score检验输出结果的解释输出结果的解释回归系数的解释系数的正负值：正（负）系数表示随自变量的增加因变量logit值的增加（减少）。二分类自变量系数为比数比的对数值，由此比数比=eb 多分类自变量以第i类作参照，比较相邻或相隔的两个类别。连续型自变量当自变量改变一个单位时，比数比为eb输出结果的解释输出结果的解释模型拟合的优劣自变量与结果变量（因变量）有无关系确认因变量与自变量的编码模型包含的各个自变量的临床意义由模型回归系数计算得到的各个自变量的比数比的临床意义输出结果的解释输出结果的解释模型的预测结果的评价敏感度、特异度和阳性预测值正确选择预测概率界值，简单地以0.5为界值，但并不是最好的。 C指数预测结果与观察结果的一致性的度量。C值越大（最大为1），模型预测结果的能力越强。非条件logistic回归非条件logistic回归研究对象之间是否发生某事件是独立的。适用于：成组的病例-对照研究无分层的队列研究或横断面调查诊断性试验条件logistic回归条件logistic回归研究中有N个配比组，每组中n个病例配m个对照者。这时，各个研究对象发生某事件的概率即为条件概率。适用于配比设计的病例-对照研究精细分层设计的队列研究logistic回归的应用logistic回归的应用疾病影响因素的研究校正混杂因素疾病预后的估计疾病诊断疾病影响因素的研究疾病影响因素的研究病因学研究病例-对照研究队列研究影响因素的研究横断面调查临床试验校正混杂因素校正混杂因素一般采用Mantel-Haenszel分层分析分层较细或存在格子零频数时，M-H法无法采用。 logistic回归分析可综合校正多个混杂因素的影响疾病预后的估计疾病预后的估计logistic回归模型作为一种概率模型，可用于预测某事件发生的概率。 logistic回归不要求在因变量正态假设的前提下进行预测。疾病诊断疾病诊断疾病诊断的判别诊断性试验研究中，敏感度和特异度的估计 logistic回归模型综合校正协变量的影响充分利用数据提供的信息可进行95%可信区间的估计logistic回归的其他问题logistic回归的其他问题多分类logistic回归模型因变量为二分类变量因变量为多分类变量多分类logistic回归其他问题其他问题研究对象例数的确定研究设计时样本含量的估计经验方法：模型中的每一自变量至少需要出现10个结局。给定例数时自变量太多删除变量合并变量及变量的分类其他问题其他问题logistic回归的局限性理论上的不足：自变量对疾病的影响是独立的，但实际情况及推导结果不同。模型有不合理性：“乘法模型”与一般希望的“相加模型”相矛盾。最大似然法估计参数的局限样本含量不宜太少：例数大于200例时才可不考虑参数估计的偏性。

                    本文档为【Logistic回归分析及其应用】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

Logistic回归分析及其应用

你可能还喜欢