SPSS统计软件培训教程

SPSS统计软件培训教程SPSS统计软件培训教程第一章多元统计分析与SPSS软件简介 SPSS(Statistical Package for Social Science)，最初软件中文意思是“社会科学统计软件包”，但是随着SPSS软件功能的逐渐强大，SPSS公司已于2000年正式将该软件的英文全称更改为Statistics Product and Service Solution，意为“统计产品与服务解决方案”。SPSS是目前应用最广泛的统计学专业软件，也是最常用的解决多元统计分析问题的软件。多元统计分析是统计学的一个分支...

SPSS统计软件培训教程第一章多元统计分析与SPSS软件简介 SPSS(Statistical Package for Social Science)，最初软件中文意思是“社会科学统计软件包”，但是随着SPSS软件功能的逐渐强大，SPSS公司已于2000年正式将该软件的英文全称更改为Statistics Product and Service Solution，意为“统计产品与服务解决方案 ”。SPSS是目前应用最广泛的统计学专业软件，也是最常用的解决多元统计分析问题的软件。多元统计分析是统计学的一个分支，是一种综合分析方法，它能够在多个对象和多个指标相互关联的情况下分析它们的统计规律。多元统计分析的主要内容包括多元描述统计、均值比较、方差分析、相关分析、回归分析、因子分析、聚类分析、交叉分析、判别分析等。先来看几个实例: 比较体育学院大一男生身高跟人文学院大一男生身高是否有显著区别,(均值比较) ? ?某老师这学期教人文、计科、美术三个专业的英语课，期末考试后，该老师想比较一下不同专业的同学对英语的学习情况是否有显著差异,(方差分析) ?我们经常在电视里看到警察在犯罪现场提取犯人的脚印，为什么要这么做,(相关性) 某股民为了研究股票指数的波动与宏观经济指标的波动之间的关系，搜集了上证综指、GDP、CPI、银行存款利率、银行存款准备金率、制造业采购经理人指数。(相关分析) ?通过相关分析发现母亲的身高和儿子的身高关系非常密切，现在收集了某地区1052对母子的身高，试图找到该地区母亲身高和儿子身高的确切关系。(回归分析) ?某高校评价课题研究小组为了对一些本科高校2014年的实力进行评估，搜集了这些大学2014年的占地面积、教职工人数、教授人数、专业数、本科生人数、研究生人数、科研论文总数、中文核心篇数、发明专利数、学生获奖次数、本科生就业率、研究生就业率、本科第一志愿报考率等等指标。(因子分析) ?国家在制定经济政策时要考虑各地区经济发展水平的差异，为此要根据各省的各种经济指标，对全国的省份进行分类。(聚类分析) 第二章数据编辑和整理 2.1 数据录入 1 图2—1 SPSS的初始界面在输入数据前，先单击初始界面左下角的“变量视图”定义变量。图2—2 SPSS的变量视图界面定义完变量视图之后，就可以进行数据录入了。SPSS的数据可以从Excel、WPS等软件的数据表中复制、粘贴，也可以通过数据导入功能输入数据。图2—3 SPSS的数据视图界面 2 2.2 数据编辑 2.2.1 变量增删在数据视图窗口，右键单击某个变量名，在弹出的快捷菜单中选择“插入变量”，然后在变量视图中对该变量进行定义即可。删除某个变量时，只需右键单击该变量名，在弹出的快捷菜单中选择“清除”即可。如果要增加或删除某个个案，只需右键单击某变量名，在弹出的快捷菜单中选择“插入个案”或“清除”即可。 2.2.2 计算变量打开数据视图界面，单击“转换?计算变量”，出现如图2—4所示的界面，定义目标变量，并设置新变量的计算表达式。设置完后单击“确定”，SPSS会在数据视图界面中自动返回计算结果。图2—4 计算新变量的视图界面 2.2.3 数据排序打开数据视图界面，单击“数据?排序个案”，出现如图2—5所示的界面，先从左侧的变量列表中选中“总分”，单击按钮，将其选择为排序依据变量。然后在排列顺序中单击“降序”，最后单击“确定”，SPSS将会在数据视图中按照总分的降序对个案进行重新排序。 3 图2—5 排序个案的设置界面 2.2.4 数据转置打开数据视图界面，单击“数据?转置”，出现如图2—6所示的界面，选择相应的变量名至右侧的变量列表中，单击“确定”。SPSS将会返回转置后的结果至数据视图界面。图2—6 数据转置的操作界面 2.2.5 缺失值处理由于多元统计分析的数据量一般比较庞大，所以难免会有数据缺失的情况。处理缺失值的方法一般有删除个案、缺失值替换等方法。删除个案一般在个案比较多、缺失值比较少的情况下使用，因为此时删除个案对整体分析结果的影响不大。缺失值替换是处理缺失值最常用的方法。缺失值替换的原理是将所有的数据列看成一个序列，然后用该序列的均值、临近值的平均值、该序列的中位数等方法中的一种对缺失值进行替换。练习:打开“练习1:20111121班学生成绩表”。?首先在SPSS软件的变量视图界面中定义学号、姓名、体育、大学英语、数学分析、解析几何6个变量。要求:学号和姓名的变量类型为字符串，其余变量类型为数值。学号左对齐，姓名右对齐，其余居中对齐。学号的度量标准为序号，姓名的度量标准为名义，其余变量的度量标准为度量。然后将表格中的数据导入SPSS中。结果以“成绩1”命名并保存。?假设体育的学分是1、大学英语的学分是3、数学分析的学分是4、解析几何的学分是2 。请定义一个名为“加权分”的新变量，按照各门课占总学分的比重，算出该班所有同学的加权分。结果以“成 4 绩2”命名并保存。?请按加权分从高到低对该班同学进行重新排序。结果以“成绩3”命名并保存。?请按序列均值替换的方法，对23号同学的数学分析成绩和31号同学的解析几何成绩进行缺失值替换。结果以“成绩4”命名并保存。?将“成绩1”的学号这一列删除，以姓名作为名称变量、各科成绩作为变量，对表格进行转置。结果以“成绩5”命名并保存。第三章均值比较 3.1 均值比较问题简介对总体均值的比较问题，在日常工作生活中会经常遇到。比如要检验某个班男生的平均身高是否为170cm、要检验某个行业的平均工资是否为3500元、要比较两个地区居民的收入水平是否相等、要比较两个班同一门课的成绩是否有显著差异等等都是均值比较问题。均值比较其实是对某组数据或两组数据的均值进行检验。检验某组数据的均值是否为某个值、或者检验两组数据的均值是否相等。均值比较问题根据检验问题的不同分为三种类型:单样本t检验、独立样本t检验、配对样本t检验。 3.2 假设检验假设检验是一类重要的统计推断问题。假设检验的原理是小概率事件在一次试验中几乎不可能发生。也就是说，对总体的某个假设是真实的，那么不利于或不能支持这一假设的事件A在一次试验中是几乎不可能发生的;如果在一次试验中事件A竟然发生了，那我们就有理由怀疑这一假设的真实性，从而拒绝这一假设。一个完整的假设检验，应该包括以下几个步骤: ?根据实际问题的要求，提出原假设H及备择假设; H01 ?给定显著性水平以及样本容量n; , ?确定检验统计量以及拒绝域的形式; ?求出拒绝域; ?取样，根据样本观察值做出决策，是接受H还是拒绝H。 00 3.3 单样本T检验例3.1 为了检验教师教育学院2012级女生的身高与教育部公布的大学女生平均身高165CM是否有显著差异，现从教师教育学院2012级女生中随机抽取了15名同学，测得她们的身高分别为: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 学生 164 152 168 173 168 165 175 166 169 156 160 158 170 156 174 身高该问题假设检验的过程为: VS?提出原假设与备择假设:H:,,165 H:,,16501 X,,t?确定检验统计量: ,S n ?计算得 S,7.126，，， X,164.93df,15,1,14 5 X,164.93,165, t,,,,0.036S7.126 n15 ,,0.05本问题是双侧检验，如果取检验的显著性水平，查t分布表可得临界值。t(14),2.140.025t,0.036,2.14，说明 t值落在接受域内，即接受原假设。因此可以认为教师教育学院2012级女H0 生的身高与教育部公布的女大学生的平均身高没有显著差异。 SPSS操作过程: 打开SPSS的数据视图界面，输入15位同学身高的数值如图3—1。图3—1 身高数据视图在身高数据视图界面中，依次单击“分析?比较均值?单样本T检验”，出现如图3—2的操作界面。 6 图3—2 单样本T检验的操作界面在变量列表中选中“身高”，单击按钮，将其选择为检验变量。在下面的检验值中输入要检验的原假设值“165”。然后单击选项按钮，出现如图3—3的设置界面。图3—3 单样本T检验选项设置界面本例保留默认的设置，然后单击“继续”，返回单样本T检验的操作界面，再单击“确定”按钮，出现如图3—4所示的结果: 单个样本检验检验值 = 165 差分的 95% 置信区间 Sig.(双侧) 均值差值下限上限 t df 身高 -.036 14 .972 -.06667 -4.0130 3.8796 图3—4 单样本T检验结果在上述检验结果中，Sig.(双侧)=0.9720.05，因此接受原假设，认为教师教育学院2012级女生, 的身高与教育部公布的女大学生身高的平均值165CM没有显著差异。 ,,0.05(注:在显著性水平的情况下，将假设检验的结果中的Sig值与0.05进行比较，如果Sig值小于0.05检验结果应该是拒绝原假设，如果Sig值大于等于0.05,检验结果应该是接受原假设) 练习:为了检验上海市金融行业从业人员的月收入与8000元是否有显著差异，现从上海市金融行业的从业人员中随机选取12个人，问卷调查知道他们的月收入分别为7946、8325、7714、8012、7890、8200、 ,,0.057655、7988、8022、7429、8364、8110。试用SPSS在显著性水平的情况下对该问题进行检验。 7 3.4 两样本独立T检验例3.2:为了比较体育学院大一男生身高和人文学院大一男生身高是否有显著区别，现从两个学院大一男生中随机选取几名同学，测得他们的身高数据如下: 体育学院 1 2 3 4 5 6 7 8 身高 175 174 178 168 183 170 174 171 人文学院 1 2 3 4 5 6 7 身高 168 164 173 169 170 166 176 SPSS操作过程: 首先打开SPSS的变量视图界面，定义变量“学院”和“身高”，输入相应的内容，如图3—4所示。图3—4 例3.2的数据视图界面在数据视图界面中，依次单击“分析?比较均值?独立样本T检验”，出现如图3—5所示的操作界面。 8 图3—5 独立样本T检验的操作界面在此操作界面中，选中“身高”单击按钮，将其移动到检验变量中。选中“学院”将其移动到分组变量中，单击“定义组”对不同的学院进行定义，定义完后单击“继续”。然后再单击“选项”按钮，出现如图3—6所示的设置界面: 如3—6 独立样本T检验的选项设置界面本例中，默认选项内容，单击“继续”返回独立样本T检验的操作界面，然后单击“确定”按钮，出现如图3—7所示的检验结果: 独立样本检验方差方程的 Levene 检验均值方程的 t 检验差分的 95% 置信区间 Sig.(双均值差标准误差侧) 值值下限上限 F Sig. t df 身高假设方差相.058 .814 2.035 13 .063 4.69643 2.30826 -.29027 9.68313 等假设方差不2.057 12.998 .060 4.69643 2.28281 -.23535 9.62820 相等图3—7 例3.2的检验结果 9 从表中看到，假设方差相等的F检验的Sig=0.8140.05，所以应该接受方差相等这一假设，认为, 两个学院大一男生身高的方差相等。在这种情况下，应该看第一行假设方差相等时均值t检验的结果，因为此时Sig.(双侧)=0.0630.05，所以应该接受原假设，认为两个学院大一男生的身高相等。 , 练习:为了比较两个品牌的电灯泡的寿命是否相等，现随机挑取一定数量两种品牌的灯泡，测得甲品牌灯泡的寿命分别为(单位:小时):1798、2014、2257、1995、2013、1889、1957、1935、2042，乙品牌灯泡的寿命分别为:1985、2411、2032、1789、1995、1987、2044、2019、2212、1985、1959。试比较两种品牌灯泡的寿命是否相同。 3.5 配对样本T检验例3.3 某葡萄酒酿酒厂请甲乙两位品酒师分别独立的对同样10瓶红酒进行品尝，根据品尝结果独立地对每瓶红酒进行打分，结果如下: 1 2 3 4 5 6 7 8 9 10 甲 95 93 97 91 90 99 92 87 94 91 乙 96 94 99 90 97 91 95 90 93 95 试判断两位品酒师的评价结果有无主观差异, SPSS操作过程: 打开SPSS的变量视图界面，定义“序号”、“甲评酒师”、“乙评酒师”三个变量，并输入相应的数据，如图3—7所示: 10 图3—7 例3.3的数据视图界面在数据视图界面中，依次单击“分析?比较均值?配对样本T检验”，出现如图3—8所示的操作界面: 图3—8 配对样本T检验的操作界面在此操作界面中，选中“甲评酒师”，单击按钮，将其移动到“Variable1”，选中“乙评酒师”，单击按钮，将其移动到“Variable2”。单击“确定”，出现检验结果如图3—9所示: 成对样本检验成对差分差分的 95% 置信区间均值的标准Sig.(双均值标准差误下限上限侧) t df 对 1 甲评酒师 - 乙评-1.10000 3.98469 1.26007 -3.95048 1.75048 -.873 9 .405 酒师图3—9 例3.3的检验结果从检验结果中我们可以看到，Sig.(双侧)=0.4050.05，所以应该接受原假设，认为两个评酒师, 的打分没有显著主观差异。练习:为了测试某种减肥药的效果，现选取9名患者进行试验，9名患者服用减肥药之前和服用一段时间以后，体重分别为: 1 2 3 4 5 6 7 8 9 服药前 63 58 61 70 66 59 62 75 71 服药后 61 59 59 66 60 54 61 63 72 试确定该减肥药的减肥效果是否显著, 11 第四章方差分析 4.1 方差分析简介上一章的均值比较中，我们讨论的是一个总体或者两个总体均值的假设检验问题。但是在实际应用中我们还会经常碰到多个总体均值的比较问题。例如下面的这个例子。例4.1 在研究饲料养鸡增肥的问题时，某研究所提出三种饲料配方:A1是以鱼粉为主的饲料，A2是以槐树粉为主的饲料，A3是以苜蓿粉为主的饲料。为了比较这三种饲料的效果，特选24只相似的雏鸡随机均分成三组，每组各喂一种饲料，一段时间后观察它们的重量，结果如下表所示: A1 1073 1009 1060 1001 1002 1012 1009 1028 A2 1107 1092 990 1109 1090 1074 1122 1001 A3 1093 1029 1080 1021 1022 1032 1029 1048 诸如此例，要比较三个及以上总体的均值是否相同的假设检验的问题，我们称为方差分析。 4.2 单因子方差分析的统计模型在例4.1中，我们只考虑了饲料这一个因素对养鸡增肥的效果，我们把这种只考虑一个因素对实验结果影响的模型叫做单因子方差分析模型。通常，在单因子方差分析中，记因子为A，设其有个水r平，记为，在每一个因子水平下考察的指标可以看成是一个总体。在分析这类问题之前，A,A,？,A12r 一般假设: ?每一总体均为正态总体; 从每个总体中抽取的样本是相互独立的; ? ?每个总体的方差相同。方差分析的任务是在满足以上三个假设的情况下，检验各总体的均值是否相同，即是,,,,？,12r否成立, 4.3 单因子方差分析的SPSS操作打开SPSS的变量视图界面，定义“饲料”、“重量”两个变量，然后再在数据视图中输入例4.1的数据，如图4—1所示: 12 图4—1 例4.1的数据视图界面在此数据视图界面中，依次点击“分析?比较均值?单因素ANOVA”，出现如图4—2的操作界面: 图4—2 单因素方差分析操作界面 13 在此操作界面中，选中“重量”，单击按钮，将其移动到“因变量列表”中，选中“饲料”，单击按钮，将其移动到“因子”中。单击右侧“选项”按钮，出现如图4—3所示的设置界面: 图4—3 单因素方差分析的选项设置界面在此界面中，选择“方差同质性检验”，然后单击“继续”，返回操作界面，再单击下方的“确定”，SPSS会输出方差分析的结果，如下图4—4和图4—5所示: 方差齐性检验重量 Levene 统计量显著性 df1 df2 1.876 2 21 .178 图4—4 方差齐性检验结果图4—4是例4.1的单因素方差分析的方差齐性检验结果，结果中显著性sig值=0.1780.05，所,以接受原假设，认为三个总体的方差相等。在此检验结果下，方差分析的结果才有意义。 ANOVA 重量平方和均方显著性 df F 组间 9660.083 2 4830.042 3.595 .045 组内 28215.875 21 1343.613 总数 37875.958 23 图4—5 例4.1方差分析结果图4—5是例4.1的单因素方差分析的结果，结果中显著性sig值=0.0450.05，所以拒绝原假设，, 14 认为三种饲料对养鸡增肥的效果有差异。练习:某学院某专业有4个班，4个班同学的英语基础和学习态度大致相同。本学期有4位英语老师各教其中的一个班，期末考试后为比较4位老师的教学效果有无显著差异，从4个班各取了几名同学得到了他们的英语成绩(附件:第四章练习题的数据)。试比较不同的老师教学效果有无显著差异, 第五章相关分析 5.1 相关关系变量间的关系分为确定性关系和不确定关系两类:确定性关系即通常所说的函数关系，不确定性关系即相关关系。我们用相关性来描述两个变量之间关系的密切程度，研究变量之间相关性的统计分析方法即为相关分析。例如，我们经常在电影和电视剧里看到警察在犯罪现场提取犯罪嫌疑人的脚印，那么警察为什么要这么做呢,当然是为了根据脚印的长度去推测犯人的身高，那么人的脚印的长度和身高之间有关系吗,我们知道人的身高跟人的体重应该是有联系的，那么人的身高和人的体重之间的关系有多密切呢,是体重跟身高之间的关系更密切呢,还是脚印的长度跟身高之间的关系更密切呢, 5.2 相关系数 ,相关系数是用来度量两个变量之间相关程度的一个指标，一般用表示。 COV(X,Y),,相关系数的计算公式是,相关系数的取值范围是。 ,1,,,1D(X)D(Y) 当时，表示随机变量X和Y不相关; ,,0 当时，表示随机变量X和Y正相关; 0,,,1 当时，表示随机变量X和Y完全正相关; ,,1 当时，表示随机变量X和Y负相关; ,1,,,0 当时，表示随机变量X和Y完全负相关。 ,,,1 5.3 相关分析例5.1 随着世界经济一体化的深入，任何国家的经济都要受到其他国家和地区经济活动的影响，2008年的金融危机就是如此。为了研究中国股市波动受外国股市波动的影响程度，现收集了2012年所有交易日上证综指以及其他国家和地区的11种股票指数。分析上证指数跟其他股票指数的相关程度。首先打开SPSS变量视图，定义变量，并输入数据，结果如图5—1所示: 15 图5—1 例5.1的数据视图界面在此视图界面中，单击“分析?相关?双相关”，出现如图5—2所示的操作界面: 图5—2 相关分析的操作界面在此操作界面中，将12种股票指数的变量名称全部选中，然后单击按钮，将其移动到右边的变量中，在默认的指标选项的情况下，单击下方的“确定”，得到相关分析的结果如下表所示: 16 相关性上证纳斯道琼英国加拿澳大香港台湾综指达克标普斯富时法国大利亚韩国日经恒生加权 ***********上证Pearson 相1 .037 .105 .026 .231 .299 .107 .128 .274 .029 .437 .331 综指关性显著性(双.563 .101 .687 .000 .000 .092 .044 .000 .654 .000 .000 侧) N 248 248 248 248 248 248 248 248 248 248 247 236 ******纳斯Pearson 相.037 1 .156 .921 .036 .176 .040 .064 .067 -.029 .065 .144 达克关性显著性(双.563 .014 .000 .568 .005 .529 .315 .293 .651 .312 .027 侧) N 248 248 248 248 248 248 248 248 248 248 247 236 ****标普 Pearson 相.105 .156 1 .139 .047 .127 .021 .063 .074 .024 .069 .143 关性显著性(双.101 .014 .028 .461 .045 .739 .324 .246 .703 .280 .028 侧) N 248 248 248 248 248 248 248 248 248 248 247 236 ******道琼Pearson 相.026 .921 .139 1 .025 .145 .031 .050 .060 -.037 .049 .181 斯关性显著性(双.687 .000 .028 .692 .022 .624 .435 .349 .562 .444 .005 侧) N 248 248 248 248 248 248 248 248 248 248 247 236 **********英国Pearson 相.231 .036 .047 .025 1 .274 .071 .112 .080 .171 .167 .324 富时关性显著性(双.000 .568 .461 .692 .000 .264 .077 .209 .007 .009 .000 侧) N 248 248 248 248 248 248 248 248 248 248 247 236 ********************法国 Pearson 相.299 .176 .127 .145 .274 1 .462 .381 .310 .301 .460 .741 关性显著性(双.000 .005 .045 .022 .000 .000 .000 .000 .000 .000 .000 侧) N 248 248 248 248 248 248 248 248 248 248 247 236 ********加拿Pearson 相.107 .040 .021 .031 .071 .462 1 .150 .086 .125 .322 .265 大关性显著性(双.092 .529 .739 .624 .264 .000 .018 .179 .048 .000 .000 侧) N 248 248 248 248 248 248 248 248 248 248 247 236 ********澳大Pearson 相.128 .064 .063 .050 .112 .381 .150 1 .119 .075 .203 .315 利亚关性显著性(双.044 .315 .324 .435 .077 .000 .018 .061 .240 .001 .000 侧) 17 N 248 248 248 248 248 248 248 248 248 248 247 236 *********韩国 Pearson 相 .067 .074 .060 .080 .310 .086 .119 1 .136 .504 .329 .274 关性显著性(双.000 .293 .246 .349 .209 .000 .179 .061 .033 .000 .000 侧) N 248 248 248 248 248 248 248 248 248 248 247 236 ********日经 Pearson 相.029 -.029 .024 -.037 .171 .301 .125 .075 .136 1 .112 .290 关性显著性(双.654 .651 .703 .562 .007 .000 .048 .240 .033 .079 .000 侧) N 248 248 248 248 248 248 248 248 248 248 247 236 **************香港Pearson 相.437 .065 .069 .049 .167 .460 .322 .203 .504 .112 1 .421 恒生关性显著性(双.000 .312 .280 .444 .009 .000 .000 .001 .000 .079 .000 侧) N 247 247 247 247 247 247 247 247 247 247 247 236 ********************台湾Pearson 相.331 .144 .143 .181 .324 .741 .265 .315 .329 .290 .421 1 加权关性显著性(双.000 .027 .028 .005 .000 .000 .000 .000 .000 .000 .000 侧) N 236 236 236 236 236 236 236 236 236 236 236 236 **. 在 .01 水平(双侧)上显著相关。 *. 在 0.05 水平(双侧)上显著相关。表5—1 例5.1的相关分析结果 (注:**表示两个变量之间很相关，*表示两个变量之间比较相关，没有表示两个变量之间不怎么相关) 练习:附件“第五章练习题的数据”是我国3大商品期货交易所2013年1月至9月一些商品期货主力合约的均价数据，请分析这些商品期货均价之间的相关性。第六章回归分析 6.1 回归分析简介回归分析的基本思想和方法以及“回归”这个名称的由来都要归功于英国统计学家道尔顿。道尔顿在研究父亲的身高和成年儿子的身高之间的关系时，观察了1078对父子的身高，记父亲的身高为x，儿子的身高为y，然后将这1078对父子的身高所表示的点绘制在平面直角坐标系中，发现这些点近乎在一条直线附近。道尔顿计算出这条直线的方程为:。 y,0.516x，33.73 这种现象及这条直线的方程大致说明:父亲的身高每增加一个单位时，其成年儿子的身高平均增加0.516个单位。这表明，高个子父亲们的后代依然比较高，矮个子父亲们的身高依然比较矮，但呈 18 现向中心回归的趋势。为了描述这种有趣的现象，道尔顿引入了“回归”这个词。 6.2 一元回归分析一元线性回归是描述两个变量之间最简单的统计关系模型。在实际应用中，经常要研究某一现象与影响它的某一最主要因素之间的关系。例如，影响粮食产量的因素非常多，但在众多的因素中施肥量是最重要的一个因素，我们研究施肥量与粮食产量之间的关系;影响学生高考数学成绩的因素很多，但花在数学上的学习时间无疑是最重要的一个，我们研究学生学习数学的时间与高考数学分数之间的关系;影响消费水平的因素有很多，但其收入水平无疑是最重要的因素，我们研究收入水平与消费水平之间的关系。 x例6.1 在研究我国人均国民收入水平和人均消费水平的关系时，我们把人均收入水平记为，把 y人均消费水平记为。我们收集到1980年到1998年这19年我们国家人均收入水平和人均消费水平的数据(附件:例6.1的数据)。打开SPSS，在变量视图界面中定义“年份”、“人均收入水平”、“人均消费水平”三个变量，并录入相应的数据，如图6—1所示: 19 图6—1 例6.1的数据视图界面在数据视图界面中，单击“图形?旧对话框?散点/点状”，出现如图6—2所示的界面: 图6—2 散点图选项界面选中“简单分布”，单击“定义”，出现如图6—3所示的界面: 20 图6—3 简单散点图的定义界面选中“人均收入水平”变量，单击按钮，将其移动到右边的X轴框中，选中“人均消费水平”变量，单击按钮，将其移动到右边的Y轴框中。单击下面的“确定”。输出例6.1的散点图如图6—4所示: 21 图6—4 例6.1的散点图从散点图中，我们可以发现，所有的散点近似地集中在一条直线附近，回归分析的任务就是求出这条回归直线。 6.3 一元线性回归系数的最小二乘估计假设我们根据实际问题抽取样本得到的散点坐标分别是、、„、。一元(x,y)(x,y)(x,y)nn1122 线性回归的任务就是根据这些散点的坐标，求出一条“最好”的直线，使得所有的散点都集中在这条直线附近，我们把这条直线叫做回归直线。 22 b假设回归直线的方程是:，因为一旦确定了系数和，这条直线就确定了。所以求回ay,ax，b b归直线就是确定系数和。下面我们介绍一种确定回归直线系数的方法——最小二乘估计法。 a 因为我们求回归直线的目的是想根据回归直线去预测因变量的值，所以我们自然希望当自变量相同时，回归直线的估计值和该处散点的真实值之间的误差尽可能的小。不妨设当自变量取时，回归xi ˆˆ直线估计出的因变量的值记为，显然。为了避免正负误差相互抵消，我们计算所有散点yy,ax，biii 与回归直线的误差平方和，即 nn22ˆQ,(y,y),(y,ax,b) ,,iiii,1,1ii b我们要求的回归直线的系数，就是使得误差平方和最小的和的值。 aQ ,Q,,0,,ab分别对关于a和求偏导，并另偏导数等于0。即 Q,,Q,,0,b, 23 n,(xx)(yy),,,ii,i,1ˆ,a,n解得 ,2(xx),,i,i,1,ˆˆb,y,ax, 6.4 一元线性回归的SPSS操作方法打开例6.1的数据视图界面，单击“分析?回归?线性”，出现如图6—5所示的界面: 图6—5 线性回归的操作界面在此操作界面中，选中“人均收入水平”，单击按钮，将其移动到右边的自变量框中，选中“人均消费水平”，单击按钮，将其移动到右边的因变量框中。在默认所有选项指标的情况下，单击下面的“确定”，SPSS将返回回归分析的结果，如图6—6所示: a系数非标准化系数标准系数模型标准误差试用版 B t Sig. (常量) 1 37.441 11.241 3.331 .004 人均收入水平 .455 .004 .999 123.310 .000 24 a 系数非标准化系数标准系数模型标准误差试用版 B t Sig. (常量) 1 37.441 11.241 3.331 .004 人均收入水平 .455 .004 .999 123.310 .000 a. 因变量: 人均消费水平图6—6 例6.1的回归分析结果从回归分析结果中我们可以看到，该回归方程中，人均收入水平的系数为0.455，常数为37.441。则我国人均收入水平与人均消费水平的回归直线方程为:。即 y,0.455x，37.441 人均消费水平,0.455，人均收入水平，37.441 练习6.1:附件“练习6.1的数据”是抽样调查测量得到的6岁儿童的体重和体积的数据。请?画出散点图;?求出6岁儿童的体积关于体重的回归直线方程(体重是自变量，体积是因变量)。 6.5 多元回归分析在回归分析中，如果有两个或两个以上的自变量，则称为多元回归。例如，某种产品的销售额不仅受到投入广告费用的影响，通常还与产品的价格、目标消费群的收入状况、其他可替代商品的价格等诸多因素有关。多元回归分析就是求因变量与多个自变量之间的回归方程的一种统计方法。例6.2 某地区某种植物的生长量受到4种环境变量(气温、降雨量、日照时间、湿度)的影响，试求出植物生长量与四种环境变量之间的回归方程。打开变量视图界面，定义“生长量”、“气温”、“降雨量”、“日照时间”、“湿度”变量，在数据视图界面中，单击“分析?回归?线性”，出现如图6—7所示的界面: 25 图6—7 回归分析的操作界面在此视图界面下，选中左边变量中的“生长量”，单击按钮，将其移动到右边的因变量框中，选中“平均气温、降雨量、平均日照时数、平均湿度”，单击按钮，将其移动到右边的自变量框中。在默认所有选项指标的情况下，单击下面的“确定”，SPSS将返回回归分析的结果，如图6—8所示: a系数非标准化系数标准系数模型标准误差试用版 B t Sig. (常量) 1 -14.436 17.149 -.842 .428 平均气温(C) .685 .182 .715 3.768 .007 降雨量(MM) .019 .021 .230 .905 .396 平均日照时数 .011 .020 .051 .517 .621 平均湿度 .122 .197 .057 .619 .555 a. 因变量: 生长量(CM) 图6—8 例6.2的回归分析结果从回归分析结果中我们可以看到，该回归方程中，平均气温的系数为0.685，降雨量的系数为0.019，平均日照时数的系数为0.011，平均湿度的系数为0.122，常系数为-14.436。则该地区植物的生长量与四个环境因素间的回归方程为:。即 y,0.685x，0.019x，0.011x，0.122x,14.4361234 26 生长量,0.685，平均气温，0.019，降雨量，0.011，日照时数，0.122，平均湿度,14.436 练习6.2:附件“练习6.2的数据”是某种化工产品的产出量与反应温度、反应时间、反应物浓度的数据。试建立产出量与反应温度、反应时间、反应物浓度的多元回归方程。第七章因子分析 7.1 因子分析简介在研究实际问题时我们往往希望尽可能多地收集相关数据，以期能对问题做比较全面、完整的把握和认识。但是，变量较多的时候会增加分析问题的复杂性，因为变量之间可能存在一定的相关性，从而导致多个变量之间的信息出现重叠现象。为了克服这种相关性、重叠性，消除信息的冗余，通常采用较少的变量来代替原来较多的变量，而这种替代可以反映原来多个变量的大部分信息，这就是一种“降维”的思想。因子分析就是利用降维的思想，通过研究众多变量之间的内部依赖关系，探求观测数据中的基本结构，在损失很少信息的前提下，把原来多个指标转化为几个综合指标，用少数几个“抽象”的变量来代替原来众多的变量。例7.1 某高校为了对其开设的所有专业进行评估，整理了2013年该校所有专业的学生人数、第一志愿报考率、教师发表论文数、学生获奖数、考研率、就业率。试用因子分析法对各专业进行评估。 7.2 因子分析法的SPSS操作步骤打开SPSS的变量视图界面，定义相关变量，并录入相应数据，如图7—1所示: 27 图7—1 例7.1的数据视图界面在此数据视图界面下，单击“分析?降维?因子分析”，出现如图7—2所示的操作界面: 图7—2 因子分析的操作界面在此操作界面中，选中“学生人数、第一志愿报考率、教师发表论文数、学生获奖数、考研率、就业率”，单击按钮，将其移动到右边的变量框中。在默认的选项指标下，单击操作界面下方的“确定”按钮。返回因子分析的结果如图7—3和图7—4所示: 28 图7—3 例7.1因子分析结果的数据视图界面 a成份矩阵成份 1 2 学生人数 .908 -.105 第一志愿报考率 .594 -.605 教师发表论文数 .640 .341 学生获奖数 .863 -.309 考研率 .528 .442 就业率 .440 .612 提取方法 :主成份。 a. 已提取了 2 个成份。图7—4 例7.1因子分析结果变量的成分矩阵从图7—3中可以看到，此时的数据视图比原始的数据视图多了最后两列，这多出来的两列就是对原来6个变量进行因子分析后得到的两个新的变量。图7—4的矩阵是这两个新变量和原来的6个变量之间的关系矩阵。即练习:附件“练习7的数据”是某科研团队为了研究首批登陆创业板的28家上市公司的财务状况所搜集的数据，包括28家上市公司2011年年报中公布的很多项财务指标。请对其进行因子分析。 29 第八章聚类分析 8.1 聚类分析简介聚类分析又称集群分析，是指依据研究对象的个体特征，根据“物以类聚”的道理，对研究对象进行分类的多元统计方法。聚类分析的思想是:开始将每个研究对象或者样本视为一类，根据类与类之间的距离或相似程度将相似的类进行合并，然后再重复上述工作，随着合并次数的增加类会越来越少，直到达到要求的目标为止。例8.1 对“练习7的数据”中的28家上市公司按照其财务状况指标进行聚类。 8.2 系统聚类的SPSS操作方法打开例8.1的数据视图界面，如图8—1所示: 图8—1 例8.1的数据视图界面在此数据视图界面下，单击“分析?分类?系统聚类”，出现如图8—2所示的操作界面: 30 图8—2 系统聚类的操作界面在此操作界面视图下，选中左边要参与聚类的指标变量“资产总额、资产负债比、利润总额、净利润、净利润现金含量、主营业务收入、净资产收益率、净利润增长率”，单击按钮，将其移动到右边的变量框中。在默认选项指标的情况下，单击下方的“确定”按钮。得到聚类的结果如图8—3所示: 31 图8—3 例8.1系统聚类结果的树状图 8.3 k—均值聚类的SPSS操作方法在数据视图界面下，单击“分析?分类?k—均值聚类”，出现如图8—4所示的操作界面: 32 图8—4 k—均值聚类的操作界面在此操作界面视图下，选中左边要参与聚类的指标变量“资产总额、资产负债比、利润总额、净利润、净利润现金含量、主营业务收入、净资产收益率、净利润增长率”，单击按钮，将其移动到右边的变量框中。在默认选项指标的情况下，单击下方的“确定”按钮。得到聚类的结果如图8—5所示: 聚类成员案例号聚类距离 1 3 63691.227 2 3 109098.757 3 3 64364.462 4 1 28609.380 5 1 39936.965 6 1 35383.776 7 1 13046.635 8 1 10920.373 9 1 19396.410 10 1 23584.560 33 11 1 11226.630 12 1 16769.379 13 1 35672.823 14 1 12332.486 15 3 50102.655 16 1 29962.015 17 1 18718.617 18 1 19226.334 19 1 23977.965 20 3 48863.845 21 1 35361.675 22 2 .000 23 1 48487.947 24 3 34456.476 25 1 14602.489 26 3 62726.490 27 3 51742.809 28 1 18496.969 图8—5 例8.1的k—均值聚类结果上图的结果中，第二列相同的数字表示聚类之后是同一类。例8.1中如果把28家公司分成3类，则3类的成员分别是(4、5、6、7、8、9、10、11、12、13、14、16、17、18、19、21、23、25、28)，(22)，(1、2、3、15、20、24、26、27)。练习:附件“练习8的数据”是2000年中国城镇分省份分行业平均工资数据。请?对31个省份的收入水平进行聚类;?对所列的16个行业的收入水平进行聚类。第九章列联表分析 9.1 列联表分析简介前面介绍的多元统计分析方法都是对变量的定量分析，在实际应用中经常会用到定性变量分析的问题。例如，人的性别、职业、满意程度、职称等。这些变量只有各种状态的区别，没有数量的区别。列联表分析就是对定性变量进行分析的一种多元统计分析方法。列联表是两个及两个以上变量进行交叉分类的频数分布表。比如下面的例子。例9.1 要了解不同性别对三种类型的啤酒:淡啤酒、普通啤酒、黑啤酒的偏好是否有差异，分别调查了1353个男性饮酒者和636个女性饮酒者，得到的结果如下表: 淡啤酒普通啤酒黑啤酒合计男性 352 284 717 1353 女性 293 133 210 636 34 合计 645 417 927 1989 9.2 列联表分析的SPSS操作首先将数据录入SPSS的数据视图界面，如图9—1所示: 图9—1 例9.1的数据视图在此数据视图界面下，单击“数据?加权个案”，出现如图9—2所示的界面: 图9—2 加权个案的操作界面单击“确定”，返回视图界面，然后单击“分析?描述统计?交叉表”，出现如图9—3所示的界面: 35 图9—3 交叉表的操作界面选中“性别”，将其移动到行对话框中，选中“啤酒偏好”将其移动到列对话框中，选中“频数” 将其移动到变量对话框中。单击“确定”，得到交叉分析结果如图9—4所示: 卡方检验频数值渐进 Sig. (双侧) df a Pearson 卡方 133 . 有效案例中的 N 133 a Pearson 卡方 210 . 有效案例中的 N 210 a Pearson 卡方 284 . 有效案例中的 N 284 a Pearson 卡方 293 . 有效案例中的 N 293 a Pearson 卡方 352 . 有效案例中的 N 352 a Pearson 卡方 717 . 有效案例中的 N 717 b合计 Pearson 卡方 90.685 2 .000 似然比 90.065 2 .000 线性和线性组合 89.947 1 .000 36 有效案例中的 N 1989 a. 无法计算统计量，因为性别和啤酒偏好都是常量。 b. 0 单元格(.0%) 的期望计数少于 5。最小期望计数为 133.34。图9—4 交叉分析结果从表中可以看到，检验统计量的sig值为.000<0.05，故拒绝原假设，认为性别对啤酒的偏好是有显著差异的。练习:某调查机构连续三年对某城市的居民进行热点调查，对下列四个问题:(1)收入、(2)物价、(3)住房、(4)交通，要求被调查者选择其中之一作为最关心的问题，调查结果如下: 收入物价住房交通合计 2011年 155 232 87 50 524 2012年 134 201 100 75 510 2013年 176 114 165 61 516 合计 465 547 352 186 1550 是否可以认为各年该城市居民对社会热点的看法保持不变, 37

                    本文档为【SPSS统计软件培训教程】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

SPSS统计软件培训教程

你可能还喜欢