下载

2下载券

加入VIP
  • 专属下载特权
  • 现金文档折扣购买
  • VIP免费专区
  • 千万文档免费下载

上传资料

关闭

关闭

关闭

封号提示

内容

首页 SPSS教材第十一章 分类资料的回归分析

SPSS教材第十一章 分类资料的回归分析.doc

SPSS教材第十一章 分类资料的回归分析

张子彧2011
2018-09-07 0人阅读 举报 0 0 暂无简介

简介:本文档为《SPSS教材第十一章 分类资料的回归分析doc》,可适用于IT/计算机领域

第十一章分类资料的回归分析――Regression菜单详解(下)(医学统计之星:张文彤)上次更新日期:Linear过程简单操作入门界面详解输出结果解释复杂实例操作分析实例结果解释CurveEstimation过程界面详解实例操作BinaryLogistic过程界面详解与实例结果解释模型的进一步优化与简单诊断模型的进一步优化模型的简单诊断在很久很久以前地球上还是一个阴森恐怖的黑暗时代大地上恐龙横行我们的老祖先--类人猿惊恐的睁大了双眼围坐在仅剩的火堆旁担心着无边的黑暗中不知何时会出现的妖魔鬼怪没有电视可看没有网可上我是疯了还是在说梦话?都不是类人猿自然不会有机会和恐龙同时代只不过是我开机准备写这一部分的时候心里忽然想到在年前国内的统计学应用上还是卡方检验横行分层的MH卡方简直就是超级武器在流行病学中称王称霸更有那些:M的配对卡方N:M的配对卡方含失访数据的N:M配对卡方之类的简直象恐龙一般搞得我头都大了。其实恐龙我还能讲出十多种来可上面这些东西我现在还没彻底弄明白好在社会进步迅速没等这些恐龙完全统制地球Logistic模型就已经飞速进化到了现代人的阶段各种各样的Logistic模型不断地在蚕食着恐龙爷爷们的领地也许还象贪吃的人类一样贪婪的享用着恐龙的身体。好这是好事这里不能讲动物保护现在我们就远离那些恐龙来看看现代白领的生活方式。特别声明:我上面的话并非有贬低流行病学的意思实际上我一直都在做流行病学我这样写只是想说明近些年来统计方法的普及速度之快而已。据我一位学数学的师兄讲Logistic模型和卡方在原理上是不一样的在公式推演上也不可能划等号只是一般来说两者的检验结果会非常接近而已多数情况下可忽略其不同。§BinaryLogistic过程所谓Logistic模型或者说Logistic回归模型就是人们想为两分类的应变量作一个回归方程出来可概率的取值在~之间回归方程的应变量取值可是在实数集中直接做会出现~范围之外的不可能结果因此就有人耍小聪明将率做了一个Logit变换这样取值区间就变成了整个实数集作出来的结果就不会有问题了从而该方法就被叫做了Logistic回归。随着模型的发展Logistic家族也变得人丁兴旺起来除了最早的两分类Logistic外还有配对Logistic模型多分类Logistic模型、随机效应的Logistic模型等。由于SPSS的能力所限对话框只能完成其中的两分类和多分类模型下面我们就介绍一下最重要和最基本的两分类模型。界面详解与实例例某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中收集了一批行根治性肾切除术患者的肾癌标本资料现从中抽取例资料作为示例进行logistic回归分析(本例来自《卫生统计学》第四版第章)。·i:标本序号·x:确诊时患者的年龄(岁)·x:肾细胞癌血管内皮生长因子(VEGF)其阳性表述由低到高共个等级 ·x:肾细胞癌组织内微血管数(MVC) ·x:肾癌细胞核组织学分级由低到高共级 ·x:肾细胞癌分期由低到高共期 ·y:肾细胞癌转移情况(有转移y=无转移y=)。ixxxxxy在菜单上选择Analyze==》Regression==》BinaryLogistic系统弹出Logistic回归对话框如下:左侧是候选变量框右上角是应变量框选入二分类的应变量下方的Covariates框是用于选入自变量的只不过这里按国外的习惯被称为了协变量。两框中间的是BLOCK系列按扭我在上一课已经讲过了不再重复。中下部的>a*b>框是用于选入交互作用的和其他的对话框不太相同(我也不知道为什么SPSS偏在这里做得不同)下方的Method列表框用于选择变量进入方法有进入法、前进法和后退法三大类三类之下又有细分。最下面的四个按钮比较重要请大家听我慢慢道来:·Select>>钮:用于限定一个筛选条件只有满足该条件的记录才会被纳入分析单击它后对话框会展开让你填入相应的条件。不过我觉得该功能纯属多余和专门的Select对话框的功能重复了。·Categorical钮:如果你的自变量是多分类的(如血型等)你必须要将它用哑变量的方式来分析那么就要用该按钮将该变量指定为分类变量如果有必要可用里面的选择按钮进行详细的定义如以哪个取值作为基础水平各水平间比较的方法是什么等。当然如果你弄不明白不改也可以默认的是以最大取值为基础水平用Deviance做比较。·Save钮:将中间结果存储起来供以后分析共有预测值、影响强度因子和残差三大类。·Options钮:这一部分非常重要但又常常被忽视在这里我们可以对模型作精确定义还可以选择模型预测情况的描述方式如StatisticsandPlots中的Classificationplots就是非常重要的模型预测工具Correlationsofestimates则是重要的模型诊断工具Iterationhistory可以看到迭代的具体情况从而得知你的模型是否在迭代时存在病态下方则可以确定进入和排除的概率标准这在逐步回归中是非常有用的。好根据我们的目的应变量为Y而X~X为自变量具体的分析操作如下:Analyze==》Regression==》BinaryLogisticDependent框:选入YCovariates框:选入x~xOK钮:单击结果解释LogisticRegression上表为记录处理情况汇总即有多少例记录被纳入了下面的分析可见此处因不存在缺失值条记录均纳入了分析。上表为应变量分类情况列表没什么好解释的。Block:BeginningBlock此处已经开始了拟合Block拟合的是只有常数的无效模型上表为分类预测表可见在例观察值为的记录中共有例被预测为例也都被预测为总预测准确率为这是不纳入任何解释变量时的预测准确率相当于比较基线。上表为Block时的变量系数可见常数的系数值为。上表为在Block处尚未纳入分析方程的侯选变量所作的检验表示如果分别将他们纳入方程则方程的改变是否会有显著意义(根据所用统计量的不同可能是拟合优度Deviance值等)。可见如果将X系列的哑变量纳入方程则方程的改变是有显著意义的X和X也是如此由于Stepwise方法是一个一个的进入变量下一步将会先纳入P值最小的变量X然后再重新计算该表再做选择。Block:Method=ForwardStepwise(Conditional)此处开始了Block的拟合根据我们的设定采用的方法为Forward(我们只设定了一个Block所以后面不会再有Block了)。上表为全局检验对每一步都作了Step、Block和Model的检验可见个检验都是有意义的。此处为模型概况汇总可见从STEP到STEPDEVINCE从降到两种决定系数也都有上升。此处为每一步的预测情况汇总可见准确率由Block的上升到了最后达到效果不错最终只出现了一例错判。上表为方程中变量检验情况列表分别给出了Step和Step的拟合情况。注意X的P值略大于但仍然是可以接受的因为这里用到的是排除标准(默认为)该变量可以留在方程中。以Step中的X为例可见其系数为OR值为。上表为假设将这些变量单独移出方程则方程的改变有无统计学意义可见都是有统计学意义的因此他们应当保留在方程中。最后这个表格说明的是在每一步中尚未进入方程的变量如果再进入现有方程则方程的改变有无统计学意义。可见在Step时X还应该引入而在Step时其它变量是否引入都无关了。模型的进一步优化与简单诊断模型的进一步优化前面我们将X~X直接引入了方程实际上其中X、X、X这三个自变量为多分类变量我们并无证据认为它们之间个各等级的OR值是成倍上升的严格来说这里应当采用哑变量来分析即需要用Categorical钮将他们定义为分类变量。但本次分析不能这样做原因是这里总例数只有例如果引入哑变量模型会使得每个等级的记录数非常少从而分析结果将极为奇怪无法正常解释但为了说明哑变量模型的用法下面我将演示它是如何做的毕竟不是每个例子都只有例。默认情况下定义分类变量非常容易做到如上图所示就可以了此时分析结果中的改变如下:上表为自变量中多分类变量的哑变量取值情况代码表。左侧为原变量名及取值右侧为相应的哑变量名及编码情况:以X为例表中可见X=时即取值最高的情况被作为了基线水平这是多分类变量生成哑变量的默认情况。而X()代表的是X=的情况(X为时取否则取)X()代表的是X=的情况依此类推。同时注意到许多等级值有几个记录显然后面的分析结果不会太好。相应的分析结果中也以哑变量在进行分析如下所示:上表出现了非常有趣的现象:所有的检验P值均远远大于但是所有的变量均没有被移出方程这是怎么回事?再看看下面的这个表格吧。这个表格为方程的似然值改变情况的检验可见在最后Step生成的方程中无论移出X还是X都会引起方程的显著性改变。也就是说似然比检验的结果和上面的Walds检验结果冲突以谁为准?此处应以似然比检验为准因为它是全局性的检验且Walds检验本身就不太准这一点大家记住就行了实在要弄明白请去查阅相关文献。请注意:上面的哑变量均是以最高水平为基线水平这不符合我们的目的我们希望将最低水平作为基线水平。比如以肾细胞癌第一期为基线水平需要这样做只要在Categoriacl框中选中相应的变量在ReferenceCategory处选择First,再单击Change即可此时变量旁的标示会做出相应的改变如下:分析结果中也会做出相应的改变此处略。模型的简单诊断SPSS本身提供了几种用于模型诊断的工具基本上都集中在Options对话框中除了大家熟悉的残差分析外这里这种介绍三种简单而有非常有用的工具:迭代记录、相关矩阵和分类图。上表为Block的迭代记录可见无论是似然值还是三个系数值均是从迭代开始就向着一个方向发展最终达到收敛这说明整个迭代过程是健康的问题不大如果中途出现波折尤其是当引入新变量后变化方向改变了则提示要好好研究。上表为方程中变量的相关矩阵可见X和常数相关性较强当引入X后仍然如此提示要关注这一现象以防因自变量间的共线性导致方程系数不稳(此时迭代记录多半也会有波动)。当然由于本例只有条记录这一问题是没有办法深入研究的。上图是Step结束时即只引入X时的预测图和代表实际取值当预测的概率值大于时则预测结果为反之为由上图可见该模型对的预测是比较好的多数的概率都在附近但对的预测不准即使正确的计算出的概率也在左右并且有好几个都判错了。上图为Step结束后模型的预测状况可见此时预测结果有了较大的改善概率精度提高了许多只有一例被错判为了并且从分布上看这一例可能是极端情况再引入其它变量也不见的能将预测效果改变多少。回第十章回教程首页到第十二章

用户评价(0)

关闭

新课改视野下建构高中语文教学实验成果报告(32KB)

抱歉,积分不足下载失败,请稍后再试!

提示

试读已结束,如需要继续阅读或者下载,敬请购买!

文档小程序码

使用微信“扫一扫”扫码寻找文档

1

打开微信

2

扫描小程序码

3

发布寻找信息

4

等待寻找结果

我知道了
评分:

/14

SPSS教材第十一章 分类资料的回归分析

VIP

在线
客服

免费
邮箱

爱问共享资料服务号

扫描关注领取更多福利