研究生地理
数学
数学高考答题卡模板高考数学答题卡模板三年级数学混合运算测试卷数学作业设计案例新人教版八年级上数学教学计划
方法(实习) Part 2 统计分析软件 SPSS
1
第 8 章 利用 SPSS 进行 Logistic 回归分析
现实中的很多现象可以划分为两种可能,或者归结为两种状态,这两种状态分别用 0
和 1 表示。如果我们采用多个因素对 0-1 表示的某种现象进行因果关系解释,就可能应用
到 logistic 回归。Logistic 回归分为二值 logistic 回归和多值 logistic 回归两类。首先用实例讲
述二值 logistic 回归,然后进一步说明多值 logistic 回归。在阅读这部分内容之前,最好先看
看有关 SPSS 软件操作技术的教科书。
§8.1 二值 logistic 回归
8.1.1 数据准备和选项设置
我们研究 2005 年影响中国各地区城市化水平的经济地理因素。城市化水平用城镇人口
比重表征,影响因素包括人均 GDP、第二产业产值比重、第三产业产值比重以及地理位置。
地理位置为名义变量,中国各地区被分别划分到三大地带:东部地带、中部地带和西部地带。
我们用各地区的地带分类代表地理位置。
第一步:整理原始数据。这些数据不妨录入 Excel 中。数据整理内容包括两个方面:一
是对各地区按照三大地带的分类结果赋值,用 0、1 表示,二是将城镇人口比重转换逻辑值,
变量名称为“城市化”。以各地区 2005 年城镇人口比重的平均值 45.41%为临界值,凡是城
镇人口比重大于等于 45.41%的地区,逻辑值用 Yes 表示,否则用 No 表示(图 8-1-1)。
图 8-1-1 原始数据(Excel 中,局部)
将数据拷贝或者导入 SPSS 的数据窗口(Data View)中(图 8-1-2)。
研究生地理数学方法(实习) Part 2 统计分析软件 SPSS
2
图 8-1-2 中国 31 个地区的数据(SPSS 中,局部)
第二步:打开“聚类分析”对话框。
沿着主菜单的“Analyze→Regression→Binary LogisticK”的路径(图 8-1-3)打开二值
Logistic 回归分析选项框(图 8-1-4)。
图 8-1-3 打开二值 Logistic 回归分析对话框的路径
对数据进行多次拟合试验,结果表明,像二产比重、三产比重等对城市化水平影响不显
研究生地理数学方法(实习) Part 2 统计分析软件 SPSS
3
著。至于反映地区位置的分类变量,不宜一次性的全部引入,至多引入两个,比方说东部和
中部。通过尝试,发现引入中部地带为变量比较合适。因此,为了实例的典型性,我们采用
两个变量作为自变量:一是数值变量人均 GDP,二是分类变量中部地带。
图 8-1-4 Logistic 回归分析选项框
第三步:选项设置。
首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号,将需要的变量调
入 Dependent(因变量)和 Covariates(协变量)列表框中(图 8-1-5)。在本例中,将名义变
量“城市化”调入 Dependent(因变量)列表框,将“人均 GDP”和“中部”调入 Covariates
(协变量)列表框中。
在 Method(方法)一栏有七个选项。采用第一种方法,即系统默认的强迫回归方法
(Enter)。
研究生地理数学方法(实习) Part 2 统计分析软件 SPSS
4
图 8-1-5 Logistic 回归分析的初步设置
接下来进行如下 4 项设置:
⒈ 设置 Categorical(分类)选项:定义分类变量(图 8-1-6)。
将中部调入 Categorical Covariates(分类协变量)列表框,其余选项取默认值即可。完
成后,点击 Continue 继续。
图 8-1-6 定义分类变量选项
⒉ 设置 Save(保存)选项:决定保存到 Data View 的计算结果(图 8-1-7)。
选中 Leverage values、DfBeta(s)、Standardized 和 Deviance 四项。完成后,点击 Continue
继续。
研究生地理数学方法(实习) Part 2 统计分析软件 SPSS
5
图 8-1-7 Logistic 回归分析的存储选项
⒊ 设置 Options:有三个选项区(图 8-1-5)。
第一个是 Statistics and Plots(统计和画图)选项,包括六种可以兼容的选择(复选项)。
选中 Classification plots、Hosmer-Lemeshow goodness-of-fit 和 CI for exp(B)三个选项。
第二个是 Display(显示)选项,选择 At last step(最后一步),这样,输出结果将仅仅
给出最终结果,而省略每一步的计算过程。
由于我们采用强迫回归,Probability for Stepwise(逐步回归概率)选项可以不管。
研究生地理数学方法(实习) Part 2 统计分析软件 SPSS
6
图 8-1-8 Logistic 回归分析的选项设置
此外还有一个选项需要说明。一是 Classification cutoff(分类临界值),默认值为 0.5,
即按四舍五入的原则将概率预测值化为 0 或者 1。如果将数值改为 0.6,则大于等于 0.6 的概
率值才表示为 1,否则为 0。其情况余依此类推。二是 Maximum Iterations(最大迭代值),
规定系统运算的迭代次数,默认值为 20 次,为安全起见,我们将迭代次数增加到 50。原因
是,有时迭代次数太少,计算结果不能真正收敛。三是 Include constant in model(模型中包
括常数项),即模型中保留截距。除了迭代次数之外,其余两个选项均采用系统默认值。
完成后,点击 Continue 继续。
8.1.2 结果解读
全部选项设置完毕以后,点击如图 8-1-5 所示的 OK 按钮确定,即可得到 Logistic 回归
分析结果。输出结果可以分为三大部分,下面逐一说明。
1. Case Processing Summary(样品处理摘要)。在输出结果中,首先给出样品处理摘要
报告
软件系统测试报告下载sgs报告如何下载关于路面塌陷情况报告535n,sgs报告怎么下载竣工报告下载
,包括如下信息:选择了多少样品,没有选择的有多少样品;在选择的样品里,分析多
少样品,缺失了多少样品——缺失样品一般是因为数据中存在缺失值;选择的样品总数以及
全体样品总数(图 8-1-9)。用 N 表示各类样品数目,Percent 表示各类样品的百分比。在正
常情况下,这些信息对我们的分析没有什么用处。但是,如果样本很大并且构成很复杂,涉
及到样品的取舍或者数据缺失的时候,这些信息就很重要,会为后面的分析提供很大方便。
Case Processing Summary
31 100.0
0 .0
31 100.0
0 .0
31 100.0
Unweighted Casesa
Included in Analysis
Missing Cases
Total
Selected Cases
Unselected Cases
Total
N Percent
If weight is in effect, see classification table for the total
number of cases.
a.
研究生地理数学方法(实习) Part 2 统计分析软件 SPSS
7
图 8-1-9 样品处理摘要
2. Dependent Variable Encoding(因变量编码)。这是很重要的信息,告诉我们对不同城
市化水平地区的分类编码结果(图 8-1-10)。我们开始根据全国各地区的平均结果 45.41 分
为两类:大于等于 45.41 的地区用 Yes 表示,否则用 No 表示。现在,图 8-1-10 显示,Yes
用 0 表示,No 用 1 表示。也就是说,在这次 SPSS 分析过程中,0 代表城市化水平高于平均
值的状态,1 代表城市化水平低于平均值的状态。记住这个分类。
Dependent Variable Encoding
0
1
Original Value
Yes
No
Internal Value
图 8-1-10 因变量编码
3. Categorical Variables Codings(分类变量编码)。我们的自变量中涉及到代表不同地
域类型的名义变量(图 8-1-11)。在我们开始的分类中,属于中部用 1 表示,否则用 0 表示。
但是,SPSS 改变了这种编码,原来的 0 改用 1 表示,原来的 1 改用 0 表示。也就是说,在
这次 SPSS 分析过程中,0 代表属于中部的地区,1 代表不属于中部的地区。记住这个分类
对后面开展预测分析非常重要。
Categorical Variables Codings
22 1.000
9 .000
0
1
中部
Frequency (1)
Paramete
图 8-1-11 分类变量编码
4. Classification Table(初始分类表)。Logistic 建模如同其他很多种建模方式一样,首先
对模型参数赋予初始值,然后借助迭代计算寻找最佳值。以误差最小为原则,或者以最大似
然为原则,促使迭代过程收敛。当参数收敛到稳定值之后,就给出了我们需要的比较理想的
参数值。下面是用初始值给出的预测和分类结果(图 8-1-12)。这个结果主要用于对比,比
较模型参数收敛前后的效果。
Classification Tablea,b
0 11 .0
0 20 100.0
64.5
Observed
Yes
No
城市化
Overall Percentage
Step 0
Yes No
城市化 Percentage
Correct
Predicted
Constant is included in the model.a.
The cut value is .500b.
图 8-1-12 初始预测分类表
研究生地理数学方法(实习) Part 2 统计分析软件 SPSS
8
5.Variable in the Equation(初始方程中的变量)。从这个表中可以看到系统对模型的最初
赋值方式(图 8-1-13)。最开始仅仅对常数项赋值,结果为 B=0.598(复制到 Excel 可以看来,
更精确的数值为 0.597837),标准误差为 S.E.=0.375(复制到 Excel 可以看来,更精确的数值
为 0.375379),于是 Wald 值为
536.2
375379.0
597837.0
..
22
=⎟⎠
⎞⎜⎝
⎛=⎟⎠
⎞⎜⎝
⎛=
ES
BWald .
后面的 df 为自由度,即 df=1;Sig.为 P 值,Sig.=0.111。注意 Sig.值越低越好,一般要求小
于 0.05。当然,对于 Sig.值,我们关注的是最终模型的显示结果。Exp(E)是 B 还原之后数值,
显然
818.1)( 597837.0 === eeBExp B .
在 Excel 里,利用指数函数 exp 很容易对 B 值进行还原。
Variables in the Equation
.598 .375 2.536 1 .111 1.818ConstantStep 0
B S.E. Wald df Sig. Exp(B)
图 8-1-13 初始方程中的变量
6. Variable not in the Equation(不在初始方程中的变量)。人均 GDP 和代表地理位置的
中部地带的系数初始值设为 0,这相当于,在初始模型中不考虑这两个变量(图 8-1-14)。
表中给出了 Score 检验值及其对应的自由度 df 和 P 值,即 Sig.值。Score 检验是一种初始检
验,在建模之初根据变量之间的结构关系判断自变量与因变量之间的密切程度。Score 检验
值的计算公式为
∑
∑
=
=
−−
−
= n
i
i
n
i
ii
j
xxyy
yyx
Score
1
2
1
)()1(
])([
.
因变量为 0、1 值,根据图 8-1-10 所示的编码原则,令所有的 Yes 为 0,所有的 No 为 1,容
易算出
228928.0)645161.01(645161.0)1( =−=− yy .
人均 GDP 已知,中部的编码法则已知,于是不难算出
103.3595636978)(
31
1
2 =−∑
=i
i GDPGDP ,
387097.6)(
31
1
2 =−∑
=i
i 中部中部 ,
835.81274739707])([ 2
31
1
=−∑
=i
ii yyGDP ,
研究生地理数学方法(实习) Part 2 统计分析软件 SPSS
9
037461.0])([ 2
31
1
=−∑
=i
ii yy中部 .
将上面的结果代入 Score 检验值计算公式,立即得到
486.15=GDPScore , 026.0=中部Score .
可以看到,人均 GDP 的 Score 检验值满足一般的要求,而中部地带这个变量的数值偏低。
Variables not in the Equationa
15.486 1 .000
.026 1 .873
人均GDP
中部(1)
VariablesStep
0
Score df Sig.
Residual Chi-Squares are not computed because of redundancies.a.
图 8-1-14 不在初始方程中的变量
7. Omnibus Tests of Model Coefficients(模型系数的混合检验)。主要是针对步骤、模
块和模型开展模型系数的综合性检验(图 8-1-15)。表中给出卡方值及其相应的自由度、P
值即 Sig.值。取显著性水平 0.05,考虑到自由度数目 df=2,在 Excel 中的任意单元格输入公
式“=CHIINV(0.05,2)”,回车,就可以查出卡方临界值 5.991。我们计算的卡方值 31.187,
大于临界值,并且相应的 Sig.值小于 0.05,因此在显著性水平为 0.05 的情况下,这些检验
都不成问题。
Omnibus Tests of Model Coefficients
31.187 2 .000
31.187 2 .000
31.187 2 .000
Step
Block
Model
Step 1
Chi-square df Sig.
图 8-1-15 模型系数的综合检验
图 8-1-15 分类数目统计
8. Model Summary(模型摘要)。模型摘要中给出最大似然平方的对数、Cox-Snell 拟合
优度以及Nagelkerke拟合优度值(图8-1-16a)。最大似然平方的对数值(-2loglikelihood=9.137)
用于检验模型的整体性拟合效果,该值在理论上服从卡方分布,上面给出的卡方临界值
5.991,因此,最大似然对数值检验通过。
Model Summary
9.137a .634 .872
Step
1
-2 Log
likelihood
Cox & Snell
R Square
Nagelkerke
R Square
Estimation terminated at iteration number 10 because
parameter estimates changed by less than .001.
a.
研究生地理数学方法(实习) Part 2 统计分析软件 SPSS
10
a 以人均 GDP 和中部为自变量的回归模型摘要
Model Summary
40.324a .000 .000
Step
1
-2 Log
likelihood
Cox & Snell
R Square
Nagelkerke
R Square
Estimation terminated at iteration number 3 because
parameter estimates changed by less than .001.
a.
b 以常数项(数值为 1)为自变量的回归模型摘要
图 8-1-16 数据窗口的输出结果
为了便于理解,有必要解释一下 Cox-Snell 拟合优度以及 Nagelkerke 拟合优度值与最大
似然平方对数值的关系。为此,我们需要开展一次特殊的 logistic 回归。在图 8-1-5 所示的
选项中,从协变量(covariates)列表框中剔除人均 GDP 和中部两个选项,选中并引入常数
项——对应于常系数、所有数值均为 1 的变量(参加图 8-1-1)。以常数项为唯一的自变量,
其他选项不变,开展 logistic 回归,结果将会给出特别的模型摘要(图 8-1-16b),其
-2loglikelihood=40.324 为未引入任何真正自变量的最大似然对数平方值。然后,我们采用下
式计算 Cox-Snell 拟合优度
])0()([1)]0(ln)([ln22
22
11
χχ −−− −=−= BnLBLnCS eeR .
容易算出
634.01
)324.40137.9(
31
1
2 =−= −eRCS .
更精确的数值为 0.634332。至于 Nagelkerke 拟合优度,相当于校正后的 Cox-Snell 拟合优度,
计算公式为
2)0(1
2
)0(ln2
2
2
max
2
2
11
χ
n
CS
L
n
CSCS
N
e
R
e
R
R
R
R
−−
=
−
== .
因此
872.0
1
634332.0
324.40*
31
1
2 =
−
=
−
e
RN .
因此,校正后的模型拟合优度可以视为 0.872。
9. Hosmer and Lemeshow Test(Hosmer 和 Lemeshow 检验)。似然比函数的自然对数值
对样品数目很敏感,作为补充和参照,我们需要 Hosmer-Lemeshow 检验(图 8-1-17)。该
检验依然以卡方分布为标准,但检验的方向与常规检验不同:我们要求其卡方值低于临界值
而不是高于临界值。取显著性水平 0.05,考虑到自由度数目 df=8,在 Excel 中的任意单元格
输入函数“=CHIINV(0.05,8)”,回车,理解得到卡方临界值 15.507。作为 Hosmer-Lemeshow
检验的卡方值 4.730<15.507,检验通过。后面的 Sig.值 0.786 大于 0.05,据此也可以判知
Hosmer-Lemeshow 检验可以通过。
研究生地理数学方法(实习) Part 2 统计分析软件 SPSS
11
Hosmer and Lemeshow Test
4.730 8 .786
Step
1
Chi-square df Sig.
图 8-1-17 Hosmer-Lemeshow 检验
10. Contingency Table for Hosmer and Lemeshow Test(对应于 Hosmer-Lemeshow 检验的
列联表)。因变量有两类数值,即 0 和 1。在正常情况下,我们要求观测值(observed)与
期望值(expected)逐渐趋于接近(图 8-1-18)。我们的计算结果表明,相应于“城市化=Yes”,
期望值逐渐减少到 0,与观测值趋于接近;相应于“城市化=No”,期望值逐渐增加到 4,
与观测值也趋于接近。这种结果是比较理想的,否则,模型的 Hosmer-Lemeshow 检验就不
太理想,从而模型的整体拟合效果不是很好。
Contingency Table for Hosmer and Lemeshow Test
3 3.000 0 .000 3
3 2.999 0 .001 3
2 2.693 1 .307 3
3 1.709 0 1.291 3
0 .540 3 2.460 3
0 .054 3 2.946 3
0 .005 3 2.995 3
0 .000 3 3.000 3
0 .000 3 3.000 3
0 .000 4 4.000 4
1
2
3
4
5
6
7
8
9
10
Step
1
Observed Expected
城市化 = Yes
Observed Expected
城市化 = No
Total
图 8-1-18 对应于 Hosmer-Lemeshow 检验的列联表
11. Classification Table(最终预测分类表)。经过迭代运算,模型参数逐渐收敛到稳定
值,于是我们得到最终模型参数。利用最终的 logistic 模型,可以对因变量进行预测,预测
结果分类列入下表(图 8-1-19)。可以看出,观测值 Yes 有 11 个(Yes=0),相应的预测
值全部是 Yes=0,预测正确率为 11/11*100%=100%;观测值 No 有 20 个(No=1),相应的
预测值有 19 个 No=1,一个 Yes=0,也就是说,预测失败 1 例,预测正确率为 19/(1+19)*100%
=95%。总的预测正确率为
%8.96%100*
31
30%100*
191011
1911 === +++
+预测正确率 .
全部 31 个样品有 30 个预测正确,一个预测失败,模型效果良好。
研究生地理数学方法(实习) Part 2 统计分析软件 SPSS
12
Classification Tablea
11 0 100.0
1 19 95.0
96.8
Observed
Yes
No
城市化
Overall Percentage
Step 1
Yes No
城市化 Percentage
Correct
Predicted
The cut value is .500a.
图 8-1-19 最终预测分类表
12. Variables in the Equation(最终模型中的变量)。只要理解图 8-1-13 的含义,就不难
理解下图所示的结果(图 8-1-20)。B 对应的是最终模型参数估计值:常系数为 16.365(更
精确的结果为 16.364888),中部的回归系数为 6.917(更精确的结果为 6.917073),人均
GDP 的回归系数为-0.001(更精确的结果为-0.001251)。S.E.为相应的标准误差。回归系数
与标准误差比值的平方就是 Wald 值,例如
949.1
955.4
917.6
..
22
=⎟⎠
⎞⎜⎝
⎛=⎟⎟⎠
⎞
⎜⎜⎝
⎛=
中部
中部
中部 ES
B
Wald ,
其余依此类推。由于不知道 Wald 的临界值,我们可以考察后面的 Sig.值。可以看出,常系
数和人均 GDP 回归系数的置信度达到 90%以上,而中部的回归系数只有 80%以上。这个结
果可以与前面的 Score 检验形成对照。
Variables in the Equation
-.001 .001 2.833 1 .092 .999
6.917 4.955 1.949 1 .163 1009.361
16.365 9.522 2.953 1 .086 1E+007
人均GDP
中部(1)
Constant
Step
1
a
B S.E. Wald df Sig. Exp(B)
Variable(s) entered on step 1: 人均GDP, 中部.a.
图 8-1-20 最终方程中的变量
最后的 Exp(B)是对回归系数 B 值进行指数运算的结果,例如
361.1009)( 917073.6 == eBExp 中部 .
其余的数据还原依此类推。
8.1.3 建模与预测
将图 8-1-20 所示的结果从 SPSS 中复制到 Excel 中,可以看到更精确的数值,据此可以
建立如下线性关系
GDPz 人均中部 *001.0*917073.6364888.16 −+= .
将上面的关系式代入下式
研究生地理数学方法(实习) Part 2 统计分析软件 SPSS
13
ze
yp −+= 1
1)( ,
得到
GDP
GDP
e
e
yp
人均中部
人均中部-
*001251.0*364888.16
)*001251.0*917073.6364888.16(
30000000781.01
1
1
1)(
+−
+−
+=
+= .
有了上面的式子,就可以对因变量的发生概率进行预测。
需要再次强调的是,对于名义变量中部,我们用 1 代表“是”,0 代表“非”,而 SPSS
改为 0 代表“是”,1 代表“非”。对于因变量城市人口比重,我们用 Yes 代表 1(城市化水
平高于平均值),用 No 代表 0(城市化水平低于平均值),而 SPSS 改为相反的表示。明确
了 SPSS 的重新编码过程及其含义,就可以检验上述模型的预测效果。
首先,在 Excel 中,将因变量中的名义变量转换为 0、1 数值。根据 SPSS 的编码原则(图
8-1-10),所有的 Yes 表示为 0,所有的 No 表示为 1。一个快捷的处理方式是利用 if 函数。
在与因变量并列的第二个单元格中,即 H2 中,输入函数“=IF(G2="Yes",0,1)”,回车立即得
到 0;将鼠标指向 H2 单元格的右下角,待其变成细小黑十字,双击或者下拉,得到全部转
换结果(图 8-1-21)。
图 8-1-21 用于预测的数据的整理与转换结果(部分)
数据整理完成以后,将图 8-1-20 所示的表格从 SPSS 中复制到 Excel 中,放在将要开展
预测的单元格旁边(图 8-1-22)。
图 8-1-22 将 SPSS 给出的模型参数估计值复制到 Excel 中(局部)
根据数据分布的位置,在 I2 单元格中输入如下公式(图 8-1-23):
“=1/(1+EXP(-($K$5+$K$4*(1-C2)+$K$3*E2)))”,
研究生地理数学方法(实习) Part 2 统计分析软件 SPSS
14
回车,立即得到 0。将鼠标指向 H2 单元格的右下角,待其变成细小填充柄,双击或者下拉,
得到全部预测结果(图 8-1-24);将这些数值四舍五入,所有的预测值都变成 0 或者 1。
图 8-1-23 预测公式的表达形式
注意上面的计算公式中有一个细节,对应于中部变量的单元格为 C2,公式中不是用系
数 6.917073(在单元格 K4 中)直接乘以 C2,而是乘以(1-C2)。这样处理的原因如前所述,
SPSS 改变了我们的编码,我们用 1 表示“是(中部)”,用 0 表示“非(中部)”。而 SPSS
将我们的 1 改编为 0,0 改编为 1(图 8-1-11)。我们用 1-C2 代替 C2,相当于将中部变量的
0、1 互换,使之与 SPSS 的编码一致。
图 8-1-24 预测值的计算结果(局部)
研究生地理数学方法(实习) Part 2 统计分析软件 SPSS
15
图 8-1-25 四舍五入之后的全部预测结果
比较 H 列(城市化)和 I 列(预测值)可以看到,观测值为 Yes=0 的,预测值全部是 0,
这样的数值共有 11 个;观测值为 No=1 的,预测值只有一个错误判别为 0,其余 19 个全部
是 0,与观测值一致。预测分类结果与图 8-1-19 所示的预测分类结果完全一样。
§8.2 多值 logistic 回归
§8.3 小结