利用SPSS进行Logistic回归分析

利用SPSS进行Logistic回归分析研究生地理数学方法（实习） Part 2 统计分析软件 SPSS 1 第 8 章利用 SPSS 进行 Logistic 回归分析现实中的很多现象可以划分为两种可能，或者归结为两种状态，这两种状态分别用 0 和 1 表示。如果我们采用多个因素对 0－1 表示的某种现象进行因果关系解释，就可能应用到 logistic 回归。Logistic 回归分为二值 logistic 回归和多值 logistic 回归两类。首先用实例讲述二值 logistic 回归，然后进一步说明多值...

研究生地理数学方法（实习） Part 2 统计分析软件 SPSS 1 第 8 章利用 SPSS 进行 Logistic 回归分析现实中的很多现象可以划分为两种可能，或者归结为两种状态，这两种状态分别用 0 和 1 表示。如果我们采用多个因素对 0－1 表示的某种现象进行因果关系解释，就可能应用到 logistic 回归。Logistic 回归分为二值 logistic 回归和多值 logistic 回归两类。首先用实例讲述二值 logistic 回归，然后进一步说明多值 logistic 回归。在阅读这部分内容之前，最好先看看有关 SPSS 软件操作技术的教科书。 §8.1 二值 logistic 回归 8.1.1 数据准备和选项设置我们研究 2005 年影响中国各地区城市化水平的经济地理因素。城市化水平用城镇人口比重表征，影响因素包括人均 GDP、第二产业产值比重、第三产业产值比重以及地理位置。地理位置为名义变量，中国各地区被分别划分到三大地带：东部地带、中部地带和西部地带。我们用各地区的地带分类代表地理位置。第一步：整理原始数据。这些数据不妨录入 Excel 中。数据整理内容包括两个方面：一是对各地区按照三大地带的分类结果赋值，用 0、1 表示，二是将城镇人口比重转换逻辑值，变量名称为“城市化”。以各地区 2005 年城镇人口比重的平均值 45.41%为临界值，凡是城镇人口比重大于等于 45.41%的地区，逻辑值用 Yes 表示，否则用 No 表示（图 8-1-1）。图 8-1-1 原始数据（Excel 中，局部）将数据拷贝或者导入 SPSS 的数据窗口（Data View）中（图 8-1-2）。研究生地理数学方法（实习） Part 2 统计分析软件 SPSS 2 图 8-1-2 中国 31 个地区的数据（SPSS 中，局部）第二步：打开“聚类分析”对话框。沿着主菜单的“Analyze→Regression→Binary LogisticK”的路径（图 8-1-3）打开二值 Logistic 回归分析选项框（图 8-1-4）。图 8-1-3 打开二值 Logistic 回归分析对话框的路径对数据进行多次拟合试验，结果表明，像二产比重、三产比重等对城市化水平影响不显研究生地理数学方法（实习） Part 2 统计分析软件 SPSS 3 著。至于反映地区位置的分类变量，不宜一次性的全部引入，至多引入两个，比方说东部和中部。通过尝试，发现引入中部地带为变量比较合适。因此，为了实例的典型性，我们采用两个变量作为自变量：一是数值变量人均 GDP，二是分类变量中部地带。图 8-1-4 Logistic 回归分析选项框第三步：选项设置。首先，在源变量框中选中需要进行分析的变量，点击右边的箭头符号，将需要的变量调入 Dependent（因变量）和 Covariates（协变量）列表框中（图 8-1-5）。在本例中，将名义变量“城市化”调入 Dependent（因变量）列表框，将“人均 GDP”和“中部”调入 Covariates （协变量）列表框中。在 Method（方法）一栏有七个选项。采用第一种方法，即系统默认的强迫回归方法（Enter）。研究生地理数学方法（实习） Part 2 统计分析软件 SPSS 4 图 8-1-5 Logistic 回归分析的初步设置接下来进行如下 4 项设置： ⒈ 设置 Categorical（分类）选项：定义分类变量（图 8-1-6）。将中部调入 Categorical Covariates（分类协变量）列表框，其余选项取默认值即可。完成后，点击 Continue 继续。图 8-1-6 定义分类变量选项 ⒉ 设置 Save（保存）选项：决定保存到 Data View 的计算结果（图 8-1-7）。选中 Leverage values、DfBeta(s)、Standardized 和 Deviance 四项。完成后，点击 Continue 继续。研究生地理数学方法（实习） Part 2 统计分析软件 SPSS 5 图 8-1-7 Logistic 回归分析的存储选项 ⒊ 设置 Options：有三个选项区（图 8-1-5）。第一个是 Statistics and Plots（统计和画图）选项，包括六种可以兼容的选择（复选项）。选中 Classification plots、Hosmer-Lemeshow goodness-of-fit 和 CI for exp(B)三个选项。第二个是 Display（显示）选项，选择 At last step（最后一步），这样，输出结果将仅仅给出最终结果，而省略每一步的计算过程。由于我们采用强迫回归，Probability for Stepwise（逐步回归概率）选项可以不管。研究生地理数学方法（实习） Part 2 统计分析软件 SPSS 6 图 8-1-8 Logistic 回归分析的选项设置此外还有一个选项需要说明。一是 Classification cutoff（分类临界值），默认值为 0.5，即按四舍五入的原则将概率预测值化为 0 或者 1。如果将数值改为 0.6，则大于等于 0.6 的概率值才表示为 1，否则为 0。其情况余依此类推。二是 Maximum Iterations（最大迭代值），规定系统运算的迭代次数，默认值为 20 次，为安全起见，我们将迭代次数增加到 50。原因是，有时迭代次数太少，计算结果不能真正收敛。三是 Include constant in model（模型中包括常数项），即模型中保留截距。除了迭代次数之外，其余两个选项均采用系统默认值。完成后，点击 Continue 继续。 8.1.2 结果解读全部选项设置完毕以后，点击如图 8-1-5 所示的 OK 按钮确定，即可得到 Logistic 回归分析结果。输出结果可以分为三大部分，下面逐一说明。 1. Case Processing Summary（样品处理摘要）。在输出结果中，首先给出样品处理摘要报告，包括如下信息：选择了多少样品，没有选择的有多少样品；在选择的样品里，分析多少样品，缺失了多少样品——缺失样品一般是因为数据中存在缺失值；选择的样品总数以及全体样品总数（图 8-1-9）。用 N 表示各类样品数目，Percent 表示各类样品的百分比。在正常情况下，这些信息对我们的分析没有什么用处。但是，如果样本很大并且构成很复杂，涉及到样品的取舍或者数据缺失的时候，这些信息就很重要，会为后面的分析提供很大方便。 Case Processing Summary 31 100.0 0 .0 31 100.0 0 .0 31 100.0 Unweighted Casesa Included in Analysis Missing Cases Total Selected Cases Unselected Cases Total N Percent If weight is in effect, see classification table for the total number of cases. a. 研究生地理数学方法（实习） Part 2 统计分析软件 SPSS 7 图 8-1-9 样品处理摘要 2. Dependent Variable Encoding（因变量编码）。这是很重要的信息，告诉我们对不同城市化水平地区的分类编码结果（图 8-1-10）。我们开始根据全国各地区的平均结果 45.41 分为两类：大于等于 45.41 的地区用 Yes 表示，否则用 No 表示。现在，图 8-1-10 显示，Yes 用 0 表示，No 用 1 表示。也就是说，在这次 SPSS 分析过程中，0 代表城市化水平高于平均值的状态，1 代表城市化水平低于平均值的状态。记住这个分类。 Dependent Variable Encoding 0 1 Original Value Yes No Internal Value 图 8-1-10 因变量编码 3. Categorical Variables Codings（分类变量编码）。我们的自变量中涉及到代表不同地域类型的名义变量（图 8-1-11）。在我们开始的分类中，属于中部用 1 表示，否则用 0 表示。但是，SPSS 改变了这种编码，原来的 0 改用 1 表示，原来的 1 改用 0 表示。也就是说，在这次 SPSS 分析过程中，0 代表属于中部的地区，1 代表不属于中部的地区。记住这个分类对后面开展预测分析非常重要。 Categorical Variables Codings 22 1.000 9 .000 0 1 中部 Frequency (1) Paramete 图 8-1-11 分类变量编码 4. Classification Table（初始分类表）。Logistic 建模如同其他很多种建模方式一样，首先对模型参数赋予初始值，然后借助迭代计算寻找最佳值。以误差最小为原则，或者以最大似然为原则，促使迭代过程收敛。当参数收敛到稳定值之后，就给出了我们需要的比较理想的参数值。下面是用初始值给出的预测和分类结果（图 8-1-12）。这个结果主要用于对比，比较模型参数收敛前后的效果。 Classification Tablea,b 0 11 .0 0 20 100.0 64.5 Observed Yes No 城市化 Overall Percentage Step 0 Yes No 城市化 Percentage Correct Predicted Constant is included in the model.a. The cut value is .500b. 图 8-1-12 初始预测分类表研究生地理数学方法（实习） Part 2 统计分析软件 SPSS 8 5.Variable in the Equation（初始方程中的变量）。从这个表中可以看到系统对模型的最初赋值方式（图 8-1-13）。最开始仅仅对常数项赋值，结果为 B=0.598（复制到 Excel 可以看来，更精确的数值为 0.597837），标准误差为 S.E.=0.375（复制到 Excel 可以看来，更精确的数值为 0.375379），于是 Wald 值为 536.2 375379.0 597837.0 .. 22 =⎟⎠ ⎞⎜⎝ ⎛=⎟⎠ ⎞⎜⎝ ⎛= ES BWald . 后面的 df 为自由度，即 df=1；Sig.为 P 值，Sig.=0.111。注意 Sig.值越低越好，一般要求小于 0.05。当然，对于 Sig.值，我们关注的是最终模型的显示结果。Exp(E)是 B 还原之后数值，显然 818.1)( 597837.0 === eeBExp B . 在 Excel 里，利用指数函数 exp 很容易对 B 值进行还原。 Variables in the Equation .598 .375 2.536 1 .111 1.818ConstantStep 0 B S.E. Wald df Sig. Exp(B) 图 8-1-13 初始方程中的变量 6. Variable not in the Equation（不在初始方程中的变量）。人均 GDP 和代表地理位置的中部地带的系数初始值设为 0，这相当于，在初始模型中不考虑这两个变量（图 8-1-14）。表中给出了 Score 检验值及其对应的自由度 df 和 P 值，即 Sig.值。Score 检验是一种初始检验，在建模之初根据变量之间的结构关系判断自变量与因变量之间的密切程度。Score 检验值的计算公式为 ∑ ∑ = = −− − = n i i n i ii j xxyy yyx Score 1 2 1 )()1( ])([ . 因变量为 0、1 值，根据图 8-1-10 所示的编码原则，令所有的 Yes 为 0，所有的 No 为 1，容易算出 228928.0)645161.01(645161.0)1( =−=− yy . 人均 GDP 已知，中部的编码法则已知，于是不难算出 103.3595636978)( 31 1 2 =−∑ =i i GDPGDP , 387097.6)( 31 1 2 =−∑ =i i 中部中部 , 835.81274739707])([ 2 31 1 =−∑ =i ii yyGDP , 研究生地理数学方法（实习） Part 2 统计分析软件 SPSS 9 037461.0])([ 2 31 1 =−∑ =i ii yy中部 . 将上面的结果代入 Score 检验值计算公式，立即得到 486.15=GDPScore , 026.0=中部Score . 可以看到，人均 GDP 的 Score 检验值满足一般的要求，而中部地带这个变量的数值偏低。 Variables not in the Equationa 15.486 1 .000 .026 1 .873 人均GDP 中部(1) VariablesStep 0 Score df Sig. Residual Chi-Squares are not computed because of redundancies.a. 图 8-1-14 不在初始方程中的变量 7. Omnibus Tests of Model Coefficients（模型系数的混合检验）。主要是针对步骤、模块和模型开展模型系数的综合性检验（图 8-1-15）。表中给出卡方值及其相应的自由度、P 值即 Sig.值。取显著性水平 0.05，考虑到自由度数目 df=2，在 Excel 中的任意单元格输入公式“=CHIINV(0.05,2)”，回车，就可以查出卡方临界值 5.991。我们计算的卡方值 31.187，大于临界值，并且相应的 Sig.值小于 0.05，因此在显著性水平为 0.05 的情况下，这些检验都不成问题。 Omnibus Tests of Model Coefficients 31.187 2 .000 31.187 2 .000 31.187 2 .000 Step Block Model Step 1 Chi-square df Sig. 图 8-1-15 模型系数的综合检验图 8-1-15 分类数目统计 8. Model Summary（模型摘要）。模型摘要中给出最大似然平方的对数、Cox-Snell 拟合优度以及Nagelkerke拟合优度值（图8-1-16a）。最大似然平方的对数值（-2loglikelihood=9.137）用于检验模型的整体性拟合效果，该值在理论上服从卡方分布，上面给出的卡方临界值 5.991，因此，最大似然对数值检验通过。 Model Summary 9.137a .634 .872 Step 1 -2 Log likelihood Cox & Snell R Square Nagelkerke R Square Estimation terminated at iteration number 10 because parameter estimates changed by less than .001. a. 研究生地理数学方法（实习） Part 2 统计分析软件 SPSS 10 a 以人均 GDP 和中部为自变量的回归模型摘要 Model Summary 40.324a .000 .000 Step 1 -2 Log likelihood Cox & Snell R Square Nagelkerke R Square Estimation terminated at iteration number 3 because parameter estimates changed by less than .001. a. b 以常数项（数值为 1）为自变量的回归模型摘要图 8-1-16 数据窗口的输出结果为了便于理解，有必要解释一下 Cox-Snell 拟合优度以及 Nagelkerke 拟合优度值与最大似然平方对数值的关系。为此，我们需要开展一次特殊的 logistic 回归。在图 8-1-5 所示的选项中，从协变量（covariates）列表框中剔除人均 GDP 和中部两个选项，选中并引入常数项——对应于常系数、所有数值均为 1 的变量（参加图 8-1-1）。以常数项为唯一的自变量，其他选项不变，开展 logistic 回归，结果将会给出特别的模型摘要（图 8-1-16b），其 -2loglikelihood=40.324 为未引入任何真正自变量的最大似然对数平方值。然后，我们采用下式计算 Cox-Snell 拟合优度 ])0()([1)]0(ln)([ln22 22 11 χχ −−− −=−= BnLBLnCS eeR . 容易算出 634.01 )324.40137.9( 31 1 2 =−= −eRCS . 更精确的数值为 0.634332。至于 Nagelkerke 拟合优度，相当于校正后的 Cox-Snell 拟合优度，计算公式为 2)0(1 2 )0(ln2 2 2 max 2 2 11 χ n CS L n CSCS N e R e R R R R −− = − == . 因此 872.0 1 634332.0 324.40* 31 1 2 = − = − e RN . 因此，校正后的模型拟合优度可以视为 0.872。 9. Hosmer and Lemeshow Test（Hosmer 和 Lemeshow 检验）。似然比函数的自然对数值对样品数目很敏感，作为补充和参照，我们需要 Hosmer-Lemeshow 检验（图 8-1-17）。该检验依然以卡方分布为标准，但检验的方向与常规检验不同：我们要求其卡方值低于临界值而不是高于临界值。取显著性水平 0.05，考虑到自由度数目 df=8，在 Excel 中的任意单元格输入函数“=CHIINV(0.05,8)”，回车，理解得到卡方临界值 15.507。作为 Hosmer-Lemeshow 检验的卡方值 4.730<15.507，检验通过。后面的 Sig.值 0.786 大于 0.05，据此也可以判知 Hosmer-Lemeshow 检验可以通过。研究生地理数学方法（实习） Part 2 统计分析软件 SPSS 11 Hosmer and Lemeshow Test 4.730 8 .786 Step 1 Chi-square df Sig. 图 8-1-17 Hosmer-Lemeshow 检验 10. Contingency Table for Hosmer and Lemeshow Test（对应于 Hosmer-Lemeshow 检验的列联表）。因变量有两类数值，即 0 和 1。在正常情况下，我们要求观测值（observed）与期望值（expected）逐渐趋于接近（图 8-1-18）。我们的计算结果表明，相应于“城市化=Yes”，期望值逐渐减少到 0，与观测值趋于接近；相应于“城市化=No”，期望值逐渐增加到 4，与观测值也趋于接近。这种结果是比较理想的，否则，模型的 Hosmer-Lemeshow 检验就不太理想，从而模型的整体拟合效果不是很好。 Contingency Table for Hosmer and Lemeshow Test 3 3.000 0 .000 3 3 2.999 0 .001 3 2 2.693 1 .307 3 3 1.709 0 1.291 3 0 .540 3 2.460 3 0 .054 3 2.946 3 0 .005 3 2.995 3 0 .000 3 3.000 3 0 .000 3 3.000 3 0 .000 4 4.000 4 1 2 3 4 5 6 7 8 9 10 Step 1 Observed Expected 城市化 = Yes Observed Expected 城市化 = No Total 图 8-1-18 对应于 Hosmer-Lemeshow 检验的列联表 11. Classification Table（最终预测分类表）。经过迭代运算，模型参数逐渐收敛到稳定值，于是我们得到最终模型参数。利用最终的 logistic 模型，可以对因变量进行预测，预测结果分类列入下表（图 8-1-19）。可以看出，观测值 Yes 有 11 个（Yes=0），相应的预测值全部是 Yes=0，预测正确率为 11/11*100%=100%；观测值 No 有 20 个（No=1），相应的预测值有 19 个 No=1，一个 Yes=0，也就是说，预测失败 1 例，预测正确率为 19/(1+19)*100% =95%。总的预测正确率为 %8.96%100* 31 30%100* 191011 1911 === ＋＋＋＋预测正确率 . 全部 31 个样品有 30 个预测正确，一个预测失败，模型效果良好。研究生地理数学方法（实习） Part 2 统计分析软件 SPSS 12 Classification Tablea 11 0 100.0 1 19 95.0 96.8 Observed Yes No 城市化 Overall Percentage Step 1 Yes No 城市化 Percentage Correct Predicted The cut value is .500a. 图 8-1-19 最终预测分类表 12. Variables in the Equation（最终模型中的变量）。只要理解图 8-1-13 的含义，就不难理解下图所示的结果（图 8-1-20）。B 对应的是最终模型参数估计值：常系数为 16.365（更精确的结果为 16.364888），中部的回归系数为 6.917（更精确的结果为 6.917073），人均 GDP 的回归系数为-0.001（更精确的结果为-0.001251）。S.E.为相应的标准误差。回归系数与标准误差比值的平方就是 Wald 值，例如 949.1 955.4 917.6 .. 22 =⎟⎠ ⎞⎜⎝ ⎛=⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛= 中部中部中部 ES B Wald , 其余依此类推。由于不知道 Wald 的临界值，我们可以考察后面的 Sig.值。可以看出，常系数和人均 GDP 回归系数的置信度达到 90%以上，而中部的回归系数只有 80%以上。这个结果可以与前面的 Score 检验形成对照。 Variables in the Equation -.001 .001 2.833 1 .092 .999 6.917 4.955 1.949 1 .163 1009.361 16.365 9.522 2.953 1 .086 1E+007 人均GDP 中部(1) Constant Step 1 a B S.E. Wald df Sig. Exp(B) Variable(s) entered on step 1: 人均GDP, 中部.a. 图 8-1-20 最终方程中的变量最后的 Exp(B)是对回归系数 B 值进行指数运算的结果，例如 361.1009)( 917073.6 == eBExp 中部 . 其余的数据还原依此类推。 8.1.3 建模与预测将图 8-1-20 所示的结果从 SPSS 中复制到 Excel 中，可以看到更精确的数值，据此可以建立如下线性关系 GDPz 人均中部 *001.0*917073.6364888.16 −+= . 将上面的关系式代入下式研究生地理数学方法（实习） Part 2 统计分析软件 SPSS 13 ze yp −+= 1 1)( , 得到 GDP GDP e e yp 人均中部人均中部－ *001251.0*364888.16 )*001251.0*917073.6364888.16( 30000000781.01 1 1 1)( +− +− += += . 有了上面的式子，就可以对因变量的发生概率进行预测。需要再次强调的是，对于名义变量中部，我们用 1 代表“是”，0 代表“非”，而 SPSS 改为 0 代表“是”，1 代表“非”。对于因变量城市人口比重，我们用 Yes 代表 1（城市化水平高于平均值），用 No 代表 0（城市化水平低于平均值），而 SPSS 改为相反的表示。明确了 SPSS 的重新编码过程及其含义，就可以检验上述模型的预测效果。首先，在 Excel 中，将因变量中的名义变量转换为 0、1 数值。根据 SPSS 的编码原则（图 8-1-10），所有的 Yes 表示为 0，所有的 No 表示为 1。一个快捷的处理方式是利用 if 函数。在与因变量并列的第二个单元格中，即 H2 中，输入函数“=IF(G2="Yes",0,1)”，回车立即得到 0；将鼠标指向 H2 单元格的右下角，待其变成细小黑十字，双击或者下拉，得到全部转换结果（图 8-1-21）。图 8-1-21 用于预测的数据的整理与转换结果（部分）数据整理完成以后，将图 8-1-20 所示的表格从 SPSS 中复制到 Excel 中，放在将要开展预测的单元格旁边（图 8-1-22）。图 8-1-22 将 SPSS 给出的模型参数估计值复制到 Excel 中（局部）根据数据分布的位置，在 I2 单元格中输入如下公式（图 8-1-23）： “=1/(1+EXP(-($K$5+$K$4*(1-C2)+$K$3*E2)))”，研究生地理数学方法（实习） Part 2 统计分析软件 SPSS 14 回车，立即得到 0。将鼠标指向 H2 单元格的右下角，待其变成细小填充柄，双击或者下拉，得到全部预测结果（图 8-1-24）；将这些数值四舍五入，所有的预测值都变成 0 或者 1。图 8-1-23 预测公式的表达形式注意上面的计算公式中有一个细节，对应于中部变量的单元格为 C2，公式中不是用系数 6.917073（在单元格 K4 中）直接乘以 C2，而是乘以（1-C2）。这样处理的原因如前所述， SPSS 改变了我们的编码，我们用 1 表示“是（中部）”，用 0 表示“非（中部）”。而 SPSS 将我们的 1 改编为 0，0 改编为 1（图 8-1-11）。我们用 1-C2 代替 C2，相当于将中部变量的 0、1 互换，使之与 SPSS 的编码一致。图 8-1-24 预测值的计算结果（局部）研究生地理数学方法（实习） Part 2 统计分析软件 SPSS 15 图 8-1-25 四舍五入之后的全部预测结果比较 H 列（城市化）和 I 列（预测值）可以看到，观测值为 Yes=0 的，预测值全部是 0，这样的数值共有 11 个；观测值为 No=1 的，预测值只有一个错误判别为 0，其余 19 个全部是 0，与观测值一致。预测分类结果与图 8-1-19 所示的预测分类结果完全一样。 §8.2 多值 logistic 回归 §8.3 小结

                    本文档为【利用SPSS进行Logistic回归分析】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

利用SPSS进行Logistic回归分析

你可能还喜欢