首页 主成分logistic回归模型在消除数据多重共线性中的应用

主成分logistic回归模型在消除数据多重共线性中的应用

举报
开通vip

主成分logistic回归模型在消除数据多重共线性中的应用 ·206· ·方法介绍· 主成分logistic回归模型在消除数据多重共线性中的应用‘ 广西医科大学公共卫生学院流行病学教研室&艾滋病研究中·b(530021) 苏齐鏊臧宁 肖 信邓伟 闭志友岑平 昊书志 梁浩△ logistic回归分析法是一种应用最大似然法估计 回归系数的回归方法,它不要求变量服从协方差矩阵 相等和残差项服从正态分布,因而流行病学研究得到 广泛的应用。logistic回归要求模型的解释变量之间 不能具有线性的函数关系,然而,在很多研究中,各变 量常常不是独立存在的,而是存在...

主成分logistic回归模型在消除数据多重共线性中的应用
·206· · 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 介绍· 主成分logistic回归模型在消除数据多重共线性中的应用‘ 广西医科大学公共卫生学院流行病学教研室&艾滋病研究中·b(530021) 苏齐鏊臧宁 肖 信邓伟 闭志友岑平 昊 关于书的成语关于读书的排比句社区图书漂流公约怎么写关于读书的小报汉书pdf 志 梁浩△ logistic回归分析法是一种应用最大似然法估计 回归系数的回归方法,它不 要求 对教师党员的评价套管和固井爆破片与爆破装置仓库管理基本要求三甲医院都需要复审吗 变量服从协方差矩阵 相等和残差项服从正态分布,因而流行病学研究得到 广泛的应用。logistic回归要求模型的解释变量之间 不能具有线性的函数关系,然而,在很多研究中,各变 量常常不是独立存在的,而是存在一定程度的线性依 存关系,这一现象称作多重共线性(multi—collineari— ty)。多重共线性关系常增大估计参数的标准误,从而 降低模型的稳定性,有时还可出现与实际情况相悖的 结果。因此,为了合理地估计和解释一个回归模型,需 要对变量之间的多重共线性进行处理⋯。主成分lo— gistic回归是解决logistic回归分析中的共线性问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 的 常用方法之一,它通过主成分变换,将高度相关的变量 的信息综合成相关性低的主成分,然后以主成分代替 原变量参与回归。本文通过HIV耐药性影响因素的 流行病学调查资料为实例说明其特点及其操作步骤。 所用的统计软件为SPSS13.0。 原理与步骤 1.原始数据标准化: 设有凡个样本,每个样本有P项指标,则原始样本 矩阵为: X=(X口)。。Pi=l,2,⋯,n;.『=1,2,⋯,P。 为了消除量纲的影响,先将原变量标准化变换,标 准化变换选择Z—SCOre法,公式为: ZX;=学 鼍为指标.『的均数,|s,为指标.『的标准差。变换后的标准 化矩阵为: Z=(ZXo.)。i=1,2,⋯,,l;J=1,2,⋯P。 2.计算相关系数矩阵(R): R=(‰)。虹 _『=1,2,⋯,p;k=1,2,⋯,P。 ‰为指标.『与指标奄的相关系数,哝=÷∑z口乙 ·:国家自然科学基金(No.30760218) △通讯作者:梁浩,Email:haolphd@163.eOIll =÷∑[(x#一墨)2/S][(琢一叉。)2/s。] ¨’i—l 3.求相关矩阵R的特征根、特征向量和方差贡献 率,确定主成分 由特征方程式IA,一只I=0可以求得P个特征根 A,,(i=l,2,⋯,P),将其按大小顺序排列为A。≥A2 ≥⋯≥A。≥0。A。等于第i个主成分的方差,反映了各 主成分对原变量的权重。每一个特征根对应的特征向 量根据以下公式心1计算: e#=Ci/√Ai (2) C。为第i个主成分对应于第_『标准化变量的因子 载荷。 主成分的个数由方差贡献率决定,选取尽量少的 k个主成分(k 检测 工程第三方检测合同工程防雷检测合同植筋拉拔检测方案传感器技术课后答案检测机构通用要求培训 、CD4阳性细胞和CD8阳性细胞计数。 建立数据文件。自变量为耐药性,有10个解释变量,对 分类变量和等级变量分别赋值。 1.共线性诊断 (1)计算变量间的相关系数(,):用SPSS的Cor- relate过程,连续型数值变量计算Pearson相关系数,分 类及等级资料变量计算Kendallg等级相关系数,结果 病毒载量的对数、CIM阳性细胞数、CD8阳性细胞数、 CD4与CD8比值之间,以及治疗依从性与文化程度之 万方数据 间明显相关(r>0.5),因而认为这些变量间存在共线 性问题。 (2)计算特征根(Eigenvalue)及条件指数(condi. tionindices):通过Descriptive过程,把lO个原始自变 量选人Variable(s)框,勾选SaveStandardizevalues雒 variables,系统将自动按公式(1)计算标准化值,生成 10个新变量。用Factor过程,将这10个标准化变量 选人Variables框,单击OK运行,得到lO个特征根, 根据公式(4)计算条件指数,按文献(3,4]对共线性进 行诊断,计算结果见表l。 条件指数=√入。/~ (j『=1,2,⋯,,l,入为特征根) (4) 表l特征根和条件指数计算结果 由表1可见,有1个特征根接近于0(O.007),所 有特征根的倒数之和为167,是自变量数目的16.7倍 (>5)。最大条件指数为21.834(>10),因此认为该 数据存在多重共线性问题。 2.109istic回归 用Binarylogistic过程,先进行单因素分析,以耐药 性作应变量,10个原始变量分别作自变量,筛选出P< 0.1的变量。然后对筛选出来的变量进行多因素分析, 选择Enter法。结果CD8阳性细胞数、抗病毒治疗时间 和文化程度3个变量进入模型(表2),回归方程为: LogitP=一16.242+0.032×CD8阳性细胞数+ 1.069×抗病毒治疗时间一0.677×文化程度(5) 表2 logistic回归分析结果 3.主成分logistic回归 (1)提取主成分:使用Factor过程,将有共线性的 变量ZLg病毒载量、ZCD4细胞数、7_,CD8细胞数、 ZCI)4与CD8比值、治疗依从性和文化程度选人Vari- ables框,运行结果见表3和表4。 ·207· 由表3可见,前2个主成分包含了全部指标的 77.829%的信息,因此提取前2个主成分。表4是各 主成分的因子载荷矩阵,第一主成分主要反映了 ZCD4阳性细胞数、ZLg病毒载量、ZCIM与CD8比 值、ZCD8阳性细胞数4个变量的信息。结合专业知 识,CD4阳性细胞数、CD8阳性细胞数、CD4与CD8 比值是机体免疫功能的主要指标,CD4阳性细胞数、 CD4与CD8比值常与病毒载量的对数呈负相关,因此 将只命名为免疫功能因子。第二主成分反映了治疗 依从性和文化程度,由于两者存在明显相关,提示了文 化程度不同的患者对于治疗的依从性也不同,在此将 R命名为治疗依从性因子。 表3各主成分的特征值、方差百分比及贡献率 初始特征值 提取因子载荷平方和 Total%ofV面戤CumulativeokTotal%ofV:nianceCamdativeok Lg病毒载鼍 CD4阳性细胞敦 CD8阳性细胞敛 CD4与CD8比值 治疗依从性 一0.935 O.983 0.722 0.847 —0.081 O.Oll 0.068 一O.153 O.177 0.879 文化程度 -0.053 0.865 (2)计算特征向量:用Compute过程,按公式2计 算特征向量,结果见表5。 (3)根据公式(3)建立主成分得分函数: F1=一0.532XZLg病毒载量+0.559× ZCEB阳性细胞数+0.41lXZCD8细胞数+0.482× ZCD4与CD8比值一0.046×z治疗依从性一O.03×Z 文化程度 (6) 最=-0.009xZig病毒载量+0.054×ZCD4阳性 细胞数一o.122×ZL'I)8细胞数+o.141×7_L-'I)4与CD8 比值+0.699×Z治疗依从性+0.688×z文化程度(7) (4)使用Compute过程,根据公式(6)和(7),计 算出各病例的‘和疋。 (5)用曩、最、抗病毒治时间作自变量进行logistic 万方数据 ·208· 回归分析: 用Binarylogistic过程,先进行单因素分析,筛选 出P<0.1的变量,结果‘、兄、抗病毒治疗时间的P 值<0.1。然后进行多因素回归,选择Enter法,输出 结果见表6。Fn兄和抗病毒治疗时间均进入回归方 程,回归方程为: LogitP=一0.177+0.778XFl一0.337×尼+ 0.912X抗病毒治疗时间 (8) 表6主成分logistic回归分析结果 B S.E. Wald df Sig. Exp(B) ^0.7780.140 30.98l l 0.000 2.177 —0.3370.138 5.949 l 0.015 0.714 抗病毒治疗时问0.9120.339 7.245 l 0.007 2.489 Constant 一0.6330.244 6.743 l O.009 0.531 该方程说明HIV耐药性与机体免疫功能、治疗依 从性和抗病毒治疗时间有关。将主成分还原为原始变 量后,回归方程为: LogitP=一0.26—0.779×Lg病毒载量+0.003 ×CD4细胞数+0.004×CD8细胞数+1.605×CD4 与CD8比值一0.543X治疗依从性一0.329×文化程 度+O.912X抗病毒治疗时间 (9) 4.两个回归模型拟合优度的比较 两个模型的拟合优度分析见表7。总的来说,两个 模型各个统计量都比较接近,说明两个模型的拟合优 度相近。从一2LL、Cox&SnellR2和NagelkerkeR2 来看,logistic回归的拟合优度略优于主成分logistic回 归;从PercentageCorrect来看,logistic回归的判别准 确率也稍高;从HosmerandLemeshow检验来看,二者 的P值都大于0.05,表示两个模型都接受观测数据和 预测数据之间没有显著差异的原假设,即两个模型的 拟合优度都比较好。 表7两个模型拟合优度及预测效果的比较 模型 似然比检验 Cox&SnellR2 NagelkerkeR2 百分率校正 I-IosmcrandLemeshow检验 logistic回归 198.023 0.323 0.431 77.0 ,=4.841,尸=o.774 圭垡坌!!垂坐!婴塑 兰!!:i!旦 Q:望! Q:!堑 !!:! £三2:§2Z:£三Q:§Z2 讨 论 在流行病学资料的logistic回归分析中,常常出现 模型的偏回归系数不稳定,或者出现一些不合理和难 以解释的情况,这种情况常与变量间的共线性现象有 关。本例资料进行一般的logistic回归拟合,结果治疗 依从性变量被排除在模型之外,而文化程度变量进入 了回归模型。根据专业知识,HIV耐药性突变是抗病 毒药物的选择压力、机体免疫压力、HIV基因组的快速 复制及高频突变共同作用的结果【5。j。因而logistic 回归结果难以从专业上得到合理的解释。数据经过共 线性诊断后,发现文化程度与治疗依从性具有相关关 系,因而考虑是因为存在的共线性问题使治疗依从性 变量的作用被掩盖所致。同理,另l组具有共线性的 变量,包括CD4阳性细胞数、CD8阳性细胞数、CD4 与CD8比值和Lg病毒载量,只有CD8阳性细胞数变 量进入模型,这也不能说明CD8阳性细胞数有意义, 而其他的变量没有意义。所以,对该组数据进行lo— gistic回归分析,结果可能与事实不符。从主成分10. gistic回归分析结果来看,耐药性和机体的免疫功能、 抗病毒治疗时间、治疗依从性有关,偏回归系数的符号 也合理,结果比较符合专业知识。因此。在用主成分 logistic回归处理多重共线性问题时,虽然有时候模型 的拟合优度没有得到提高,但是由于主成分变换能有 效地减弱变量间多重共线性,排除变量间的互相干扰, 更能准确地发现有意义的变量,使回归分析结果更加 可靠。 在进行logistic回归分析时,为了避免多重共线性 的影响,人们常常采用逐步logistic回归的方法。但 是,逐步回归只是限制了有共线性的变量同时进人回 归方程,这样就可能因产生共线性的变量掩盖了某些 实际上有意义的变量,而使之被排除在模型之外,不利 于发现有意义的变量。主成分logistic回归通过主成分 变换,将高度相关的变量的信息综合成相关性低的主成 分,可以有效地减弱共线性的影响,又可以减少重要信 息的丢失。主成分只依赖于变量的协方差矩阵或相关 矩阵,对总体分布无特殊要求【8】,因此,当解释变量间存 在共线性时,都可以尝试使用主成分logistic回归。 参考文献 1.范立新,金水高.多重共线性的变量分解处理法初探.中国卫生统 计,1997,14(4):4-7. 2.董寒青.解析SPSS对主成分分析的计算技术.统计与决策,2004,3: 117·118. 3.李玲,饶克勤,王启俊.肿瘤危险因素的筛选与多重共线性的诊断和 处理.中国卫生统计.1996,16(3):136-138. 4.丁元林,孔丹莉,毛宗福.多重线性回归分析中的常用共线性诊断方 法.数理医药学杂志.2004,17(4):299-300. 5.Menendez—Arias。L.TargetingmV:antiretrovirallherapy柚ddevelop- mcntofdrugresistance.TrendsPhamuleolSei。2002,23(8):381-388. 6.WainbergMA,CrosopoulosWC。SalomonH,eta1.Enlmeedfidelity of3TC—selectedmut柚tI-IIV一1fevefselranseriptase.Science。1996, 271(5253):1282-1285. 7.M柚st-yLM.TeminHM.Lowerinvivomutation憎也ofhumanimmu· nodefieieneyvinl$type1 thanthatpredictedfromthefidelityofpurified 托_ve袋mmseriptase.JVirol。1995,69:5087-5094. 8.陈峰主编.医用多元统计分析方法.北京:中国统计出版社,2000: 63. 万方数据
本文档为【主成分logistic回归模型在消除数据多重共线性中的应用】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_550041
暂无简介~
格式:pdf
大小:231KB
软件:PDF阅读器
页数:3
分类:
上传时间:2010-10-28
浏览量:100