用EXCEL和SPSS学习统计学(可编辑)

用EXCEL和SPSS学习统计学(可编辑)用EXCEL和SPSS学习统计学(可编辑) 用EXCEL和SPSS学习统计学 Ch.1 绪? 论 1.1? Excel的主要统计功能及其不足1.2? 常用统计软件简介1.3? 使用统计软件学习统计学的几点建议1.1 Excel 的主要统计功能及其不足 Excel的基本功能中包括了比较强大的数据处理功能，还提供了丰富的工作表函数，可以完成很多类型的数据处理和分析任务。除了工作表函数以外，Excel还提供了一个称为“分析工具库”的加载宏。 Excel分析工具库的安装和调用安装分析工具库可以采用以下三种方式。...

用EXCEL和SPSS学习统计学(可编辑) 用EXCEL和SPSS学习统计学 Ch.1 绪? 论 1.1? Excel的主要统计功能及其不足1.2? 常用统计软件简介1.3? 使用统计软件学习统计学的几点建议1.1 Excel 的主要统计功能及其不足 Excel的基本功能中包括了比较强大的数据处理功能，还提供了丰富的工作表函数，可以完成很多类型的数据处理和分析任务。除了工作表函数以外，Excel还提供了一个称为“分析工具库”的加载宏。 Excel分析工具库的安装和调用安装分析工具库可以采用以下三种方式。 1、在Office的默认安装中分析工具库并没有安装到你的计算机中，第一次使用“分析工具库”时需要从安装盘安装。操作步骤是:单击“工具”菜单中的“加载宏”命令，在弹出的“加载宏”对话框中选择“分析工具库”，单击“确定”按钮(如图1-1所示)，此时系统要求插入Office安装盘，安装完成后，在“工具”菜单就多出了一个“数据分析”命令(图1-2)。“数据分析”模块提供了对数据进行描述统计、假设检验、相关和回归分析、方差分析等分析工具。我们在以后的章节中将会逐步讲解这些方法。图1-1 加载分析工具库的界面图1-2 加载分析工具库后的菜单 top? 2、如果希望在第一次安装Office时就安装“分析工具库”，则需要在安装Office时选择自定义安装，再选中“选择应用程序的高级自定义”选择框，选择“下一步”，会弹出一个对话框，在Excel的加载宏中把“分析工具库”的安装方式改为“从本机运行”(图1-3)。图1-3? 自定义安装“分析工具库”的界面 3、如果你需要在一台没有安装该模块的电脑上临时使用“分析工具库”，也可以采用以下方法:在安装了“分析工具库”的电脑中找到一个名为“Analysis”的文件夹(一般情况下路径为“C:\Program Files\Microsoft Office\OFFICE11\Library\Analysis”)，把这个文件夹复制到U盘上。需要使用“分析工具库”时双击运行文件夹中的ANALYS32.XLL就可以了(如果系统弹出一个安全警告的对话框，单击“启用宏”)。 -1中取消选定“分析工具库”，否则每次启要卸载分析工具库只需要在图1 动Excel时这一模块都会自动加载。 ?Excel是一个适当统计软件吗, 由于Excel应用的普及性，许多人都把它作为最常用的统计软件来使用。Excel提供的统计功能包括数据管理、描述统计、概率计算、假设检验、方差分析和回归分析等等，对于统计学原理所涉及的大部分内容已经足够了。然而，在学习Excel的统计功能以前我们有必要先交待一下Excel在统计分析方面的局限性。下面是在网络、杂志和个人经验中发现的一些值得注意的方面: 1、就统计学原理所涉及的统计方法而言，Excel没有直接提供的方法包括:箱线图(Boxplot)、茎叶图、相关系数的p-值、无交互作用可重复的双因素方差分析、方差分析中的多重比较、非参数检验方法、质量控制图等。 2、按照优秀图形的标准，Excel做出的很多图形都不合格。Excel的有些图形可能适合于普通大众，但不适合用于科学报告中。例如二维图形的三维表示，圆柱图，圆锥图等等。Excel提供的有些图形可能永远不应该使用。、Excel不能很好的处理缺失值 Missing data 问题。总体来说Excel对3 缺失值的处理方式远不如专门的统计软件恰当。 4、虽然大部分情况下Excel的计算结果都是可靠的，但在一些极端情况下 Excel的计算程序不够稳定和准确(特别是Excel2003以前的版本中);有些自动功能可能会导致意想不到地结果。关于这一方面的内容我们在后面的章节中还会提及，在这里只举两个例子使你有一点直观的印象。练习1:如果自己计算，你认为“-5^2”等于多少,在Excel工作表的单元格中输入“ -5^2”得到的答案是多少, 练习2:在区域B1:B3中分别输入数字10、20、30;然后在B5中输入公式“ sum b1:b3 ”。这时B5的值等于多少,现在再在B4中输入40，B5的值有什么变化, 在第一个练习中Excel 2003得出的结果是25，这至少与通行的数学规则不一致。在第二个练习中Excel会自动将B5的公式改为“ sum b1:b4 ”。但这种自动功能有时候并不是我们想要的。在我们不知情的情况下对公式的修改将会直接导致计算结果的错误。总体来说，Excel为我们输入和管理数据、描述数据特征、制作统计表和统计图都提供了强大的支持，但在处理复杂的计算时有时候误差相对较大，因而一些数据处理专家建议人们避免采用Excel处理复杂的统计问题。 top? 1.2? 常用统计软件简介常用的统计分析软件包括SAS、SPSS、S-plus、Stata、Minitab等等。这些软件都能完成常用的统计方法，如描述统计、回归分析、生存分析、方差分析、多元分析等等，但不同的软件在功能、易用性、扩展性等方面又各具特色，下面我们分别加以简要介绍。 1、SAS SAS过去是“Statistical Analysis System”的简称，由于其功能现已远远超出了统计分析的范围，“SAS”已经变成了一个单纯的商标。其强大的功能和可编程性使其成为一些超级用户的首选。 SAS软件的主要特点包括:可以同时处理多个数据集;有很多模块、功能非常全面;虽然也提供了许多菜单操作方式，但仍以编程为主，学习起来有一定困难，是最难掌握的统计软件之一。 SAS的绘图功能可能是所有的统计软件中最强大的，但同时也是最难掌握的:虽然SAS也提供了一些交互式的制图界面，但与其他软件相比还不够方便。 2、SPSS SPSS过去是“Statistical Package for Social Sciences”的简称，它也是最早的统计软件之一。许多初学者都喜欢使用SPSS，因为它非常容易使用(以及误用):用鼠标点击下拉菜单中的命令就能完成分析工作。当然，SPSS也提供了编程的操作方式。 SPSS的数据编辑窗口与Excel类似，并且可以自己定义数据的属性(数值标签、数据类型等等)，最多允许有4096个变量。但其数据管理功能相对较弱，一个SPSS过程只允许同时打开一个数据文件，这对于有些分析工作来说可能不够方便。SPSS是一个模块式的软件，可以根据需要选择购买不同的功能模块。SPSS在方差分析和多元统计分析方面的功能比较突出。 SPSS也有强大的图形功能，可以做出高质量的图形，并且可以比较方便的进行编辑。 3、S-Plus 许多人认为S-Plus是介于SAS和SPSS之间的一个软件，它也可以完成绝大部分统计分析，具有菜单式的操作界面，同时提供了强大的编程语言。你可以很容易地把自己编写的函数集成到S-Plus中去。S-Plus的绘图能力特别出色，灵活性强。 4、R R是一套很像S-Plus的免费统计软件，其语法与图形功能几乎跟S-Plus一模一样，大多数的S-Plus程序也可在R上面顺利执行。R可以在R project的网页免费取得，不足之处是没有实现菜单式的图形用户界面，对于初学者来说学习起来较为困难。 5、Stata 经济学和社会科学领域的许多学者喜欢使用Stata软件。这一软件也有菜单式的操作界面，同时提供了强大的编程能力，易学易用，扩展性强，更新速度快，很容易将自己编写或者网上下载的程序加入到软件中。 Stata的回归分析和回归诊断部分功能非常强大，几乎能估计统计学和计量经济学中的所有回归模型，而在多元统计分析方面的功能稍弱。Stata可以用菜单或程序做出高质量的图形，但完成后的图形不能再进行编辑。 6、Minitab Minitab也是一个简单易学的统计软件，其统计功能和图形功能都比较全面，在统计学的教学中应用广泛。这一软件突出特色是提供的质量改进分析工具非常全面易用。 top? 1.3? 使用统计软件学习统计学的几点建议我应该选择哪个软件, 每个软件都有自己的优势和劣势。就统计学原理涉及的统计方法而言几乎所有的统计软件都可以胜任，但对于一些具体的实际问题可能有的软件会比其它软件更适合。例如，在进行一些多元统计分析时你可能会选择SAS，处理抽样调查数据可能会选择Stata，做方差分析可能会选择SPSS，进行质量改进统计分析可能会选择Minitab，希望进行统计应用开发时可能会选择SAS或S-plus。因此，如果你需要经常进行统计分析，我们的建议是你把这些软件都纳入到你的工具箱中。作为入门的软件，易学易用的SPSS或者Minitab可能是较好的选择，一开始就学习复杂的统计软件可能令人沮丧。 Excel为我们处理数据和对数据进行初步的分析提供了良好的条件，但Excel至少在2003以前版本的部分统计函数中有一些缺陷，而且Excel的统计功能有限，如果你正进行的分析工作牵涉到重大的决策、对计算结果的准确性有很高的要求，我们建议你采用专门的统计软件。许多用户(包括作者)喜欢用Excel准备数据，然后用专门的统计软件进行统计分析，有时候还会把结果转回Excel中作图。使用统计软件学习统计学的一些建议 1、如果你要做统计分析的话，一定要正确的去做～使用Excel以及其它统计软件获得一些分析结果易如反掌，但要获得正确的答案并不容易，这要求你对相应的统计方法有透彻的理解。、在开始学习一种统计方法时，不要试图立即搞清楚软件的全部输出结果。2 即使你只希望计算一下数据的平均值，统计软件也可能有数页的输出结果:搞清楚所有输出结果的努力可能使你很沮丧，因为有些内容可能已经大大超出了你的学科范围。 3、不要试图使用你还不理解的统计方法，这很容易导致统计方法的误用;但要勇于学习新的方法，新的方法可能更适合你所研究的问题。 4、不要不加分析的把软件的全部输出结果直接复制到分析报告中，这只能说明你并没有真正理解软件的输出结果。可能对你研究的问题而言软件的大部分输出都是不必要的。此外，软件生成的图表往往也需要进行一些编辑工作才能使用。 5、学习统计软件的最好方法是在应用中学习。 6、软件的帮助文件可能是软件最好的使用说明书，许多软件还附有简明的例子。 7、“Garbage in，garbage out”:如果你输入的是垃圾，得到的也只能是垃圾。你要反复检查数据的准确性，任何软件都不可能基于错误的数据得出可靠的结论。用Excel和SPSS进行描述统计分析 ? Excel和SPSS进行描述统计.. 2 3.1 用Excel和SPSS计算常用的描述统计指标.. 3.. 6 3.2 用Excel和SPSS进行分组汇总.. 7 .. 12 Ch.4? 用Excel和SPSS制作统计图.. 14 4.1 用Excel和SPSS制作常用统计图.. 14 描述数据分布状况的统计图.. 20 .. 174.2 在某学期的统计学教学中，教师在教学中使用了英文教材，并采用了案例教学的方法。在学期结束时，采用以下问卷对35名学生进行了调查。调查问卷如下: 1、你的性别:(? ) 0 男， 1 女 2、你的年龄为______周岁。 3、写出对于以下三种说法的观点(1 完全不同意，2 比较不同意，3 无所谓，4 比较同意，5 完全同意) (1)“我对统计学很感兴趣”? ( ) (2)“英文原版教材的使用对我的学习帮助很大” ( ) (3)“案例对我掌握相关知识非常重要”( ) 4、你概率论课程的考试成绩是______。 5、你上个月的生活费支出为 ( )元。 1 300以下，2 300-400，3 400-500，4 500-600， 5 600-700，6 700-800,7 800-900,8 900以上 6、你的身高 _______cm，? 体重 ________kg。 top? 在考试结束后在调查数据又增加了学生的统计学考试成绩，最后得到的数据如表3-1。在本书接下来的章节中我们将这次调查称为“学生调查”，并对调查结果进行相关的统计分析。表3-1 学生调查得到的数据表编号性别年龄兴趣英文教材案例教学概率成绩统计月成绩支出身高体重 1 0 21 5 4 5 74 83 4 172 80 0 20 2 5 5 82 78 6 173 62 3 0 22 1 2 1 49 2 38 5 183 67 4 1 21 4 1 2 80 87 8 162 49 5 1 20 5 4 5 90 91 3 159 49 6 1 22 4 3 4 71 78 6 161 45 7 1 21 2 5 5 92 97 3 166 51 8 0 20 2 3 3 67 60 2 174 74 9 1 22 3 2 5 63 65 8 165 52 10 1 20 4 2 4 78 83 3 163 54 11 1 21 4 2 5 90 89 4 160 50 12 0 22 1 5 5 78 69 5 168 55 13 0 21 2 2 4 68 55 2 173 65 14 0 20 2 3 5 87 82 3 172 60 15 1 22 2 2 3 91 89 5 165 52 16 0 21 3 3 5 78 70 1 170 53 17 0 20 2 1 5 72 68 1 164 60 18 1 21 5 4 5 88 85 6 158 52 19 1 21 3 1 5 87 81 4 163 48 20 1 21 2 4 4 86 88 7 159 53 21 0 22 5 5 5 74 80 7 175 78 22 1 20 1 2 4 73 75 6 162 42 23 1 21 3 3 5 68 65 5 165 49 24 1 22 4 2 5 76 78 5 164 53 25 1 21 5 4 5 85 92 4 161 51 26 1 22 4 3 4 71 69 3 163 49 27 1 21 4 2 5 75 65 5 158 55 28 1 22 1 4 5 64 55 6 165 50 29 0 22 3 2 5 62 64 1 169 51 30 0 20 5 5 5 77 68 2 180 75 31 0 21 3 5 4 78 80 2 171 62 32 1 21 2 4 5 87 88 3 161 50 33 0 20 4 2 4 66 68 1 167 70 34 0 22 5 5 5 79 83 2 178 65 35 0 21 3 4 5 75 77 5 168 62 ? 2.1 用Excel输入数据数据录入的列表格式 ? 在绝大部分情况下统计软件都要求以“列表格式”(List format)存储数据，而不能用其它格式存储。“列表格式”可用表2-1来说明，表2-2则不是“列表格式”。可能只有Excel中的方差分析仍然需要使用表2-2的格式。在表2-1中，每一行称为一个观测，每一列称为一个变量。表2-1 以列表格式的存储的数据序号性别学历工资 1 1 1 2600 2 1 1 2700 3 1 2 4100 4 1 2 4000 5 2 1 3200 6 2 1 2500 6 2 2 5300 8 2 2 5500 ? 表2-2 不是以列表格式的存储的数据性别学历 1(本科) 2(研究生) 1(女) 1600 4100 1700 4000 2(男) 3200 5300 2500 5500 ? top 用Excel录入数据的基本规则为了保证其它软件能够直接读入用Excel录入的数据进行分析，在用Excel 录入数据时要尽量遵循以下规则: 1、从一次调查中得出的所有的数据要存储在一个电子表格中。 2、在数据表的第一行中输入变量名。如果你还需要借助于不能识别中文的统计软件对数据进行分析，变量名要以字母开头，并且不超过8个字符;变量名中不能有空格，但可以用下划线。这是因为很多软件都对变量名都有类似的规定(在Excel中可以使用汉字作为变量名，SPSS 13.0中也允许用汉字作变量名，长度不超过32个汉字或64个字符)。 3、数据表中应避免出现其它文本行，例如标题。、数据中应避免出现空行。 4 5、在原始数据中设置一个标识变量(ID variable)，例如观测的序号、问卷的编号、学生证号、身份证号等等，以便在检查数据录入错误时易于查找原始问卷。有的分析中我们会对数据进行排序，这会打乱原来的数据顺序。这时要查找原始问卷就只能依靠标识变量了。 6、如果数据包含多个组，需要设置一个变量来表示每个观测的分组(见表2-1的例子)。 7、尽量使用数字编码来表示分类变量。例如我们可以用1来表示“党员”，2表示“团员”，3表示“群众”。如果只有两个组，将其编码为0和1可能会使一些分析易于进行。 8、对于缺失值(missing values)，将相应的单元格保留为空白，这样其他统计软件才能正确地识别缺失值。 9、Excel允许在同一列中(对应着同一个变量)输入不同类型的数据，如数值型、字符型、日期型等等。这虽然是给了我们一定的灵活性，但在同一列中输入不同类型的数据在分析时会造成极大的不便，使用中应尽量避免。 10、对数据的编码和计算过程要做好记录，以免日后忘记了每个变量或数值对应的含义，例如“0”是代表男性还是女性，某个新变量是如何计算得到的等等。 11、注意Excel的一些限制条件。Excel只能正确处理1900年1月1日以后的日期型数据;最多允许256个变量，65536行数据。使用Excel的有效性检查防止数据输入中的错误 Excel提供了一个“有效性”检查的功能，可以在我们输入数据时实时检查录入的数据是否符合要求。如果输入的数据量很小，这种有效性检查并非必要，但如果你要输入成千上万条数据，“有效性”检查可以帮助我们避免许多录入错误。 [例2.1] 我们以一个简单的例子来说明“有效性”检查功能的使用方法。假设需要输入的数据如表2-3。 -3 需要录入的数据表2 编号班级性别考试成绩 1 1 0 85 2 1 1 90 3 2 0 87 4 2 1 69 5 3 0 78 6 3 1 93 7 4 0 83 8 4 1 91 ? Excel数据表的第一行输入四个变量名:编号，性别，班级，考试成绩。 (1)、“编号”的取值我们借助Excel的自动填充功能来实现:先在单元格A2、A3中输入1，2。用鼠标选中区域A2:A3，把鼠标移至该区域右下角的填充柄(其形状为黑色的小方块)，鼠标指针变为一个实心的黑色十字(图2-1)。按住鼠标左键向下拖动至A9单元格，完成数据的自动填充。 (2)、对于班级变量，我们用1表示统计班，2表示经济班，3表示金融班，4表示会计班(同时在另一个工作表中记录这一编码规则，以免日后遗忘)。班级的取值只有1、2、3、4，其他取值都是错误输入，我们可以利用Excel的“有效性”检查对输入的数据进行限定。图2-1 自动填充指针 top? 具体操作步骤如下:先选中列B，然后选择菜单栏中的“数据”?“有效性”，会弹出图2-2的对话框。单击“允许”下面的下拉箭头，选择“整数”，再在新的对话框中把最小值设为1，最大值设为4。然后我们在“出错警告”选项卡的错误信息中输入“请输入1-4之间的整数”，这样在输入了1-4以外的数值时，Excel会弹出出错信息，并提示“请输入1-4之间的整数”。图2-2 数据的有效性检查对话框 (3)、对于取值非常有限的数据，我们还可以为变量的取值定义一个序列，如果输入的数据不在这个序列中，即为非法输入。下面我们用性别变量(0表示男性，1表示女性)加以说明。选中列C，然后选择菜单栏中的“数据”?“有效性”，在图2-2的对话框中选择序列，在“来源”对话框中输入“1,2”(数值用 -3)，单击确定按钮。这时，在列C的单元格中输英文状态下的逗号隔开)(图2 入数据时，Excel会提供一个下拉箭头使我们能够从事先确定的序列中选择数值(当然我们也可以直接输入)(图2-4)。在输入大量数据时，使用下拉箭头输入数据会大大影响输入速度。图2-3 数据的有效性检查:定义序列图2-4 Excel提供的下拉框 (4)、对于考试成绩这一变量，我们只要使用“有效性”把数据限定为0-100之间的整数就可以了。注意数据的有效性检查并不能帮助我们避免其它类型的录入错误:如果你把“60”错输成了“90”，Excel不会给你任何警告。 top? 处理多项选择问题要正确录入和分析从多项选择问题中得到的数据需要一定的技巧。下面我们以一个简单的例子加以说明。 [例2.2] 在一次对失业者的调查中有以下问题。在以下8个因素中，哪些是你重新就业的重大障碍, 最多选3项 ( ) 1、文化水平低? 2、专业不对口 3、缺少工作经验 4、缺少工作岗位? 5、歧视? 6、工资水平低 7、工作条件差? 8、缺少创业资金我们的分析目的是要找出以上8个因素对失业者再就业的影响程度，在分析中可以分别看作一个单独的问题。如果被调查者选中了这个选项，其值就等于1，未选中则等于0。也就是说，问卷中的一个变量在分析中被处理成了8个二分变量。在选项非常多，而每个被调查者只能选择少数几项时，以下方法会更有效率(以上面的问题为例):设定3个变量，分别记录被调查者的第一、第二和第三选择，取值为1-8。在分析时，将这三个变量的对应选项合并，就能得到需要的，在第二个变量中20分析结果了。例如，假设在第一个变量中有15人选择了1 人选择了1，在第三个变量中5人选择了1，则选择1的人总共有15+20+5 40人。如果有些人只选择了一项或两项，则其第二和第三个变量的取值可以设为空值(缺失值)或者另外给定的一个特定值(例如等于0)，在分析中只要处理得当就能得到正确的结果。 2.2 用Excel处理数据用Excel对数据进行排序和筛选用Excel可以方便的对数据进行排序和筛选。需要特别注意的是，如果你只对某一列进行排序，则整个数据集都会被破坏，每一个数据行对应的不再是同一个观测的取值。因此，使用Excel排序时要格外小心。下面我们通过一个例子说明用Excel进行排序和筛选的操作方法。 [例2.3] 将表2-3的数据按照考试成绩排序。单击数据区域的任何一个单元格，使其成为活动单元格。然后选择菜单栏中的“数据”?“排序”，会弹出图2-5的对话框。图2-5 排序对话框在这个对话框中将主要关键字设为考试成绩，按降序排列。单击确定后就可以完成排序工作了。你也可以在“选项”中定义其他的排序规则。注意在对文本进行排序时，由于排序的规则不同，使用不同的软件得到的排序结果可能有差异。 [例2.4] ?从表2-3的数据中筛选出所有男生的资料。单击数据区域的任何一个单元格，使其成为活动单元格。然后选择菜单栏中的“数据”?“筛选”?“自动筛选”，在每列数据的顶端会出现一个下拉箭头(图2-6)。图2-6 自动筛选的界面 ”，则Excel 2003会筛选出所有男单击“性别”变量的下拉箭头，选择“0 生的资料。当“性别”变量是一个有效的筛选变量时，该变量的下拉箭头是蓝色的。在此基础上还可以进行进一步的筛选，例如筛选出成绩在85分以上的男生的资料。如果希望显示全部数据，则要在下拉框中选择“(全部)”。要取消筛选，再一次选择菜单栏中的数据?筛选?自动筛选就可以了。自动筛选功能还可以帮助我们发现和修改数据输入中的错误。如果在变量下拉箭头打开的下拉框中有异常值，我们可以利用自动筛选功能方便的查找和定位。从图2-6可以看出，在Excel 2003中自动筛选功能也包含了升序或降序排列的排序功能。 top? cel公式和函数生成新的变量 Excel提供了大量函数，我们可以方便的使用这些函数和其他公式生成所需要的变量。在Excel中输入公式时可以直接输入，也可以通过鼠标选择需要的函数以及单元格来完成输入，一般来说后一种方法更方便而且不容易出错。关于Excel函数的详细说明清参见Excel的帮助文件，这里我们只通过一个例子说明使用Excel公式和函数的一些技巧。 [例2.5] 已知1996-2003年我国一、二、三产业的GDP如表2-4。试根据这些数据计算各产业的产值比重。表2-4 1996-2003年我国一、二、三产业的GDP(亿元) 年? 份第一产业第二产业第三产业 1996 13844.2 33612.9 20427.5 1997 14211.2 37222.7 23028.7 1998 14552.4 38619.3 25173.5 1999 14472.0 40557.8 27037.7 2000 14628.2 44935.3 29904.6 2001 15411.8 48750.0 33153.0 2002 16117.3 52980.2 36074.8 2003 17092.1 61274.1 38885.7 ? 在Excel中可以按照如下方法计算。首先计算各年的GDP，等于各年一、二、三产业的GDP之和。在E2中输入一个等号，编辑栏下面的“名称”框将变成“函数”框，如图2-7所示。单击“函数”按钮右侧的下拉箭头，打开函数列表框，从中选择所需的函数(SUM)，Excel将打开"公式选项对话框"(图2-8)。将求和函数的参数改为B2:D2(通过点击折叠按钮选择相应的区域来实现)，单击"确定 "按钮即可完成函数的输入，得到1996年的GDP。然后利用Excel的自动填充功能在E3-E9中复制E2的公式得到各年的GDP。注意这里各填充单元格的公式是自动调整的，例如E9单元格的公式为“ SUM B9:D9 ”。图2-7 函数选择框图2-8 指定函数参数的对话框要计算第一产业的产出比重，在F2中输入“ ”，然后单击B2单元格，再输入“/”，最后点击E2单元格，回车，就在F2中输入了公式“ B2/E2”，F2中显示的是1996年第一产业的比重。要在G2、H2中计算第二、多三产业的比重，可以先把F2的公式先修改为“ B2/$E2”，然后用自动填充把这个公式复制到G2、 H2单元格。这时G2中的公式为“ C2/$E2”。由于在公式的分母中使用了“$”，分母中的列号就不会改变了，这就是单元格引用中的“绝对引用”。接下来选中区域F2:H2，把鼠标移至区域的右下角，指针变为黑色实心十字时按住鼠标左键向下拖动至H9，1997-2003年的产值比重就计算出来了。最后，还可以选中区域F2:H9，将数据格式改为百分数。计算结果如表2-5。表2-5 1996-2003年我国一、二、三产业的产值比重年份总产值第一产业比重第二产业比重第三产业比重 1996 67884.6 20.39% 49.51% 30.09% 1997 19.09% 49.99% 30.93% 1998 78345.2 18.57% 49.29% 74462.6 32.13% 1999 82067.5 17.63% 49.42% 32.95% 2000 16.35% 50.22% 33.42% 2001 97314.8 15.84% 50.10% 89468.1 34.07% 2002 105172.2 15.32% 50.37% 34.30% 2003 117251.9 14.58% 52.26% 33.16% ? 在Excel中复制和粘贴带有公式的数据时一定要非常小心，注意查看粘贴后的结果是否是你希望得到的，避免出现意外的错误。如果你希望在原来的单元格中只保留计算结果而不保留公式，可以使用以下方法:选中相应的单元格，单击鼠标右键，选择“复制”，然后再在同样的位置单击鼠标右键，选择“选择性粘贴”，在弹出的对话框中选择“数值”(图2-9)。如果希望把数值复制到新的位置，则在新的位置使用“选择性粘贴”就可以了。图2-9 选择性粘贴选项框 top? cel进行其它数据操作在各种统计软件之间传递数据时，当数据量不是很大时最简便的方法可能就是“复制”+“粘贴”了。有时候我们从其他途径得到的数据不是表格的形式，而是文本形式(.txt)。这时候要让Excel正确识别数据，需要使用Excel的分列功能。 [例2.6] ?假设在例2.5中我们最初得到的数据为纯文本格式，数据之间是用逗号分割的(图2-10)。用Excel对数据进行分列。图2-10 用逗号分割的纯文本格式的数据先选中A列，然后选择“数据”?“分列”，在弹出的选择框中把“原始数据类型”选为“分隔符号”，点击“下一步”，在“分隔符号”中选中“逗号”，这时你会在数据预览中看到数据被正确分列了。点击“下一步”，你还可以对每列数据的属性做一些设定。在这里我们直接点击“确定”，数据的分列就完成了。另外一种常用的数据操作是转置。Excel中的操作方法是:先选中要转置的区域，单击鼠标右键，选择“复制”，然后在新的位置单击鼠标右键，选择“选 -9)。择性粘贴”，在弹出的对话框中选中“转置”(参见图2 2.3? 用SPSS输入和处理数据 SS输入数据一般情况下，打开SPSS时会自动打开一个空的数据表(Data View)和一个变量表(Variable View)。这两个表看起来与Excel数据表很类似。如果要直接在SPSS中输入原始数据，你只要按自己的需要定义变量、输入数据然后存盘就行了。 [例2.7] 在SPSS中输入表2-3的数据。输入数据最好先对变量进行定义。变量表是SPSS中的一个很具特色的操作界面，在这里你可以非常方便的定义变量的各种属性。我们在第一列中依次输入“编号”“班级”等四个变量名，你会看到SPSS会自动为这些变量的其他属性赋予系统默认值。你当然可以进行必要的修改，例如我们这里把小数位设为0。也可以为变量加上标签，以对变量的含义进行更详细的说明。在输出结果中可以让SPSS输出变量的标签。 SPSS允许我们通过定义数值标签对变量值进行定义。我们以“班级”这个变量为例加以说明。单击“班级”变量的“Values”单元格的右侧，会弹出一个“数值标签”(Value Labels)的对话框。在定义标签对话框的中有三个小矩形框。在第一个矩形框中输入变量值1，在第二个矩形框中输入“统计”，这时“Add”按钮变亮，点击Add按钮，下面的清单中显示1 “统计”。按照这种方法继续定义2 “经济”，3 “金融”，4 “会计”。变量定义好以后，就可以在数据表中依次输入数据了。对于定义了数值标签的变量，单击工具栏中的按钮可以显示数值标签，再单击一下则可以显示数值。当然，我们也完全可以先在数据表中输入数据，然后再对变量属性进行必要的定义。图2-11 在SPSS中定义数值标签 SS读入外部数据在很多应用中我们需要用SPSS读入其它格式的数据，如Excel格式，文本格式等等。完成这一任务有多种方式，而在数据量不大的情况下最简便的方式可能是“复制”+“粘贴”。 SPSS可以直接读取多种格式的数据。用SPSS读取Excel数据的步骤是:用鼠标选择“File? Open? Data”，将文件类型改为“Excel *.xls ”，找到你要打开的文件名，单击“打开”。在随后的对话框中选择要打开的数据表(因为Excel文件中可能包含多个数据表)，需要的话再给定数据区域。如果数据表中不包含变量名的话取消选定"Read variable names from the first row of data "，单击确定就可以了。注意如果Excel中的数据格式不够规范，SPSS可能无法正确读取数据，在用SPSS读入数据后要仔细审查数据是否正确。用SPSS读取纯文本文件的过程与用Excel对文本文件进行分列的过程有些类似，在这里我们就不详细介绍了。 SPSS可以把数据存储为多种格式，SPSS格式的数据文件扩展名为“.sav”。当把SPSS数据文件存储为其它格式时，大部分情况下变量标签、数值标签定义会丢失。 SS进行数据的排序、筛选和转置 [例2.8]用SPSS对数据例2.7输入的数据进行排序和筛选。用鼠标选择“Data?Sort Cases”，会弹出以下对话框(图2-12 )。选中“考试成绩”，单击中间的黑三角，把这个变量移至右面的矩形框中(这个过程也可以通过双击“考试成绩”完成)。再选择排序方式(升序或降序)，点击“OK”就可以了。图2-12 SPSS 对数据进行排序的对话框 top? 在数据分析中我们常常需要对数据的一个子集进行分析。这时需要首先从数据集中筛选出符合条件的数据。假设我们需要筛选出成绩在85分以上的女生进行分析，选择Data ?Select Cases，进入Select Cases 对话框(图2-13)。选择If condition is satisfied，然后单击If按钮进入If 对话框(图2-14)，在该对话框中的条件表达式栏中输入“考试成绩 85? & 性别 1”的条件表达式，单击Continue 按钮，在Select Cases 对话框中单击OK 按钮。筛选的结果见图2-15:未被选中的观测的行号被打上了反斜杠(注意SPSS自动生成一个了筛选变量)。这样，在随后的分析中就会只对选中的观测进行分析了。如果想再次选中全部观测，再次打开图2-13的对话框，选择“All cases”就可以了。在图2-13的对话框中如果把“Unselected cases are ”的选项改为“Deleted”，SPSS会删除未被选中的观测，但删除的观测是无法恢复的。SPSS还可以用其他方法筛选数据，例如从数据集中按一定比例随机选择数据，选择一定区域的数据等。图2-13 用SPSS筛选数据的对话框图2-14 SPSS中定义筛选条件的对话框图2-15 SPSS筛选的结果 SPSS进行数据转置的命令是Data?Transpose，选定需要转置的变量，点击“OK”就可以了，SPSS会产生一个新的数据文件，自动定义新的变量名和新变量的属性。虽然SPSS也可以完成合并两个数据集的操作，但由于一个SPSS过程只能同时打开一个数据文件，SPSS在多数据集操作方面的功能比较有限。要同时打开多个SPSS数据文件，只能同时打开多个SPSS过程(再一次从Windows的开始菜单打开SPSS)。 SS函数计算新的变量 [例2.9] 用SPSS计算我国的产业比重。单击SPSS Transform菜单的Compute命令会弹出图2-16的对话框。通过这个对话框可以以现有的变量为基础，利用SPSS丰富的函数计算出新的变量。图2-16 使用SPSS函数计算新变量的对话框 top? 如果我们需要根据第一二三产业的产出计算一个新的变量GDP，在Target Variable的矩形框中输入新变量名GDP，在右面的函数类型中选择“Statistical”，在右下方的函数中选择“Sum”函数，然后从左侧的变量表中把第一产业、第二产业、第三产业三个变量选到函数的参数中，用逗号隔开。点击“OK”，新的变量就计算出来了。三次产业的产值比重也可以用类似的步骤计算得到。 [例2.10] 使用SPSS对考试成绩的数据进行重新编码。 Transform菜单中的Recode命令也经常用到。这个命令可以对已有的数据进行重新编码。假设我们要把百分制的成绩换算为九级制的成绩(0-59 1，F;60-64 2，D;65-69 3，D+;70-74 4，C;75-79 5，C+;80-84 6，B;85-89 7， B+;90-74 8，A;95-99 9，A+)。单击Transform?Recode?into different variables，会得到图2-17的对话框。把左侧考试成绩变量选入中间的矩形框，在右侧的矩形框中输入变量名“九级制”，单击下面的“Change”,这时中间的矩形框中会出现以下对应关系:考试成绩?九级制。图2-17 对数据重新编码的对话框接下来单击“Old and News Values”按钮，会弹出图2-18的对话框。我们可以用这个对话框来定义新旧数值的对应关系。在Old Value栏中首先选择“Range: Lowest through”的选项，在矩形框中输入59，在New Value中输入1。这时Add按钮变亮，单击这个按钮，在右下方的矩形框中出现了Lowest through 59?1的对应关系。接下来在左侧选择并输入区间60 through64，在右，依次类推。最后一个区间可以输入为 95 through Highest。侧输入新变量值2 定义好这些对应关系以后，单击Continue，再单击图2-17中的“OK”按钮，就可以完成重新编码的过程了。图2-18 定义新旧数值的对应关系最后，用前面讲过的方法为新变量“九级制”加上数值标签:1 “F”,2 “D”，„„，9 “A+”。整个重新编码过程就完成了。计算结果如入2-19所示。 ?图2-19 用SPSS重编码得到的新变量 3.1? 用Excel和SPSS计算常用的描述统计指标在描述统计中我们常用的统计指标主要包括均值、方差、标准差、中位数、众数、峰度系数、偏态系数等等。使用统计软件可以非常方便的得到这些结果。 top? 用Excel计算基本描述统计指标可以使用Excel提供的统计函数来获得常用统计量。例如AVERAGE(平均值)、STDEV(样本标准差)、VAR(样本方差、KURT(峰度系数)、SKEW(偏度系数)、MEDIAN(中位数)、MODE(众数)等。但最方便快捷的方法是利用Excel提供的 “描述统计”工具，它可以给出一组数据的许多常用统计量。 [例3.1] 下面我们来计算学生调查中“统计成绩”的描述统计指标。打开学生调查的数据表，选择“工具”?“数据分析，会弹出图3-1的对话框。在这个对话框中选择“描述统计”，然后单击“确定”，会弹出“描述统计”的对话框(图3-2)。在“描述统计”的对话框中，单击“输入区域”右侧的折叠按钮，选中需要分析的数据。数据区域可以包括变量名，这时要选中“标志位于第一行”的复选框。我们可以根据需要指定存放结果的位置:可以指定输出到当前工作表的某个单元格区域，这时需在“输出区域”框键入输出单元格区域的左上角单元格地址;也可以指定输出到“新工作表组”;还可以指定输出到“新工作簿”。我们这里指定输出到“新工作表组”。在需要计算的统计指标的选项中，我们只选中“汇总统计”复选框，显示描述统计结果。单击“确定”，得到的计算结果如表3-2。图3-1 Excel的“数据分析”选择框图3-2 描述统计对话框表3-2 描述统计的分析结果 top? 统计成绩平均 75.51 标准误差 2.13 中位数 78 众数 83 标准差 12.62 方差 159.14 峰度 0.82 偏度 -0.77 区域 59 最小值 38 最大值 97 求和 2643 观测数 35 ? 根据表3-2，统计考试成绩的均值等于75.51，中位数(Excel2003以前的版本中显示为“中值”)等于78，众数(Excel2003以前的版本中显示为“模式”)等于83，方差等于159.14，标准差 12.62，最小值等于38，最大值等于97，全距(显示为“区域”) 59。统计考试成绩的偏态系数等于-0.77小于0，说明数据的分布是略微左偏的。峰度系数0.82大于0，说明的分布比正态分布尖锐一些。注意Excel中计算峰度系数的公式是计算结果应该与0进行比较以判断分布的形状是尖顶峰还是平顶峰。表3-2中“标准误差”的含义将在以后的章节中进行解释。用SPSS计算基本描述统计指标 SPSS的许多模块都可以完成描述性分析，其中最常用的几个模块则集中在Descriptive Statistics 菜单中，Frequencies 过程的特色是可以产生频数表，Descriptives 过程可以进行一般性的统计描述，该过程还有个特殊功能就是可将原始数据转换成标准正态数据并以变量的形式存入数据库供以后分析使用(方法是在Descriptives 过程的对话框中选中“save standardize values as variables”复选框)。Explore过程除了产生描述统计指标以外还可以输出一些统计图和一些统计检验。不同的命令可以计算的统计指标略有差异。 [例3.2] 用SPSS的Descriptives过程计算统计成绩的有关描述统计指标，并与Excel的计算结果进行对比。在菜单栏中选择Analyze ? Descriptive Statistics? Frequencies，进入Frequencies 对话框。将“统计成绩”选入Variables 框，单击Statistics按钮进入Statistics对话框，选中需要的统计指标(图3-3，其中quartile是四分位数)，单击Continue 按钮返回Frequencies 对话框，单击OK可得到计算结果(表3-3)。图3-3? Frequencies对话框 top? 表3-3 统计成绩的描述统计指标 N Valid 35 ? Missing 0 Mean(均值) 75.51 Median(中位数) 78.00 Mode(众数) 65a Std. Deviation(标准差) 12.615 Variance (方差) 159.139 Skewness(偏态系数) -.771 Std. Error of Skewness .398 Kurtosis(峰度系数) .816 Std. Error of Kurtosis .778 Range(极差) 59 Minimum(最小值) 38 imum(最大值) 97 Sum(合计值) 2643 Percentiles 百分位数 25 68.00 ? 50 78.00 ? 75 85.00 a? Multiple modes exist. The smallest value is shown 比较表3-3和表3-2，我们发现二者计算的众数结果不一致。SPSS正确地指出数据中存在多个众数，并且给出了最小的一个，而Excel则在没有任何提示的情况下给出了最大的一个(从SPSS输出的频数分布表可知，65，68，78，83都出现了3次)。用Excel函数也可以计算四分位数。对统计成绩这一变量，在一个空单元各种输入公式“ QUARTILE G2:G36,3 ”，可得Q3 84。这一结果与SPSS计算的85也不一致。这是因为在Excel中三个四分位数的位置分别是 n+3 /4， n+1 /2， 3n+1 /4。而在主流教科书中的三个四分位数的位置分别是 n+1 /4， n+1 /2， 3n+3 /4。分组资料的描述统计 [例3.3] 有些情况下我们只能得到分组以后的数据资料。例如，根据学生调查的结果可以得到表3-4的频数分布表(得到这一表格的具体过程以后讲解)。如何根据表3-4计算常用的描述统计指标呢, 表3-4? 学生支出的频数分布月支出人数 300以下 4 300-400 5 400-500 6 500-600 4 600-700 7 700-800 5 800-900 2 900以上 2 ? Excel中没有现成的函数处理分组数据，相关计算需要根据相应的计算公式逐步完成。在SPSS中可以直接对分组数据进行计算。首先在SPSS中输入表3-5 的数据，月支出用各组的组中值代替(即250，350，„„，950)。然后，从菜单中选择Data?Weight cases，在弹出的对话框中选择“Weight cases by”，并用人数做权数。接下来在菜单栏中选择Analyze ? Descriptive Statistics? Frequencies，进入Frequencies 对话框。单击Statistics按钮进入Statistics对话框，选中需要的统计指标，同时选中“Values are group midpoints”复选框，告诉SPSS分析的数据是分组数据的组中值。单击Continue 按钮返回Frequencies 对话框，单击OK可得到计算结果(表3-5)。从表中可以看出学生的月生活费支出平均为559元。表3-5? 学生月支出的描述统计 Valid 35 ? Missing 0 Mean 558.5714 MedianN 559.0909a Mode 650.00 Std. Deviation 202.00674 Variance 40806.723 Sum 19550.00 Percentiles 25 390.9091b ? 50 559.0909 ? 75 712.5000 a? Calculated from grouped data. b? Percentiles are calculated from grouped data. 3.2 用Excel和SPSS进行分组汇总 top? 在数据处理中我们常常需要对数据进行分组和相应的汇总计算。例如，我们可能希望得到生对统计学的兴趣程度的频数分布表，并计算不同组别的平均成绩以了解兴趣对成绩的影响程度。在进行统计分组时，有时候是单变量值分组，有时候则需要进行组距分组。 Excel的数据透视表 Excel的数据透视表(pivot tables)为我们制作多维统计表并进行描述统计分析提供了功能强大的工具。数据透视表可以根据列表形式的数据或者数据库产生一维、二维或三维的汇总表，并进行多种汇总计算。许多人都认为数据透视表是Excel独具特色的功能，这一功能比许多专门的统计软件都要强大。要根据列表格式的数据创建一个数据透视表，先单击数据表的任何一个单元格，然后点击菜单中的“数据”?“数据透视表和数据透视图”，按照向导的提示完成创建过程。在第一步中使用默认的选项(根据Excel数据列表创建数据透视表)，单击下一步，Excel会自动找到需要的数据(你也可以修改数据区域)，单击下一步，选择在新工作表中创建数据透视表(默认选项)，单击完成。接下来Excel会先新建一个工作表，并显示类似图3-4的界面，变量名出现在一个单独的列表中，同时显示一个数据透视表工具栏。将相应的变量名拖到行、列和页字段区域，把需要分析的数据拖到数据区域，可以创建出一维、二维或三维统计表。注意用来定义统计表结构的变量应该是离散的定性变量(分类变量)，否则得到的表格可能毫无意义。需要分析的数据通常是定量变量(也可以根据分析目的使用定性变量)。图3-4 数据透视表对话框 [例3.4] ?使用数据透计表分析分析学生消费支出的分布状况。在需要统计各个组别的人数时，可以把任何一个不包含缺失值的变量拖放到数据区。在图3-4的界面中把月支出变量拖至行字段处，把编号拖放到数据区，得到的结果如图3-5。图3-5 学生月支出的汇总结果 Excel默认的汇总计算是求和。双击“求和项:编号”，或者在汇总栏中的任意单元格单击鼠标右键，选择字段设置按钮，会弹出字段设置对话框(图3-6)。在对话框中把汇总方式改为计数(也可以更改字段显示的名称)，就可以得到需要的汇总结果了(图3-7)。图3-6 数据透视表的字段设置对话框图3-7 学生支出的分布 top? 还可以修改数据透视表中数据的显示方式。例如，在字段设置对话框中单击“选项”，点击“数据显示方式”下面的下拉菜单(图3-8)，选择“占总和的百分比”，可以得到图3-9的计算结果。图3-8 数据透视表字段设置:显示方式的调整图3-9 学生支出的频率分布如果要同时显示一个变量的不同汇总指标，可以把这个变量多次拖入数据透视表的数据区，每次要求不同的汇总指标。例如，要同时显示各组的人数和百分比，可以被“编号变量”再次拖入数据区，选择“计数”汇总指标，可以得到图3-10的结果。 -10 数据透视表:同时显示频数和频率图3 对数据透视表可以进行灵活的修改，例如可以修改数据的格式(选中需要修改的数据区域点击右键，选择“设置单元格格式”);选择是否显示合计项(点击右键，选择“表格选项”，选中或不选“列总计”和“行总计”);更改表格样式(从数据透视表工具栏中选择设置报告格式按钮)。对图3-10的输出结果进行修改，可以很容易地得到图3-11的结果。当然，如果要对数据表的格式进行较大的修改，最好先把数据透视表的结果通过选择性粘贴的方式把数值粘贴到新的位置，然后就可以像普通表格一样进行修改了。图3-11 调整格式后的数据透视表 top? [例3.5] 下面我们再来做一个复杂一些的二维表:计算分性别和兴趣的平均考试成绩。要保存前一个数据透视表的结果可以用选择性粘贴的方式把数值结果保存在新的位置。然后，把前一个数据透视表的字段都拖回到变量表中，使数据透视表恢复初始状态。把性别变量拖到行字段中，兴趣变量拖到列变量中，把统计成绩拖到数据区，并把统计成绩的汇总方式改为平均值，可以得到相应的计算结果(图3-12)。图3-12 分性别和学习兴趣的统计成绩在数据透视表中，行和列都可以根据需要进行复合分组。例如，把性别、年龄拖至行字段中，把平均身高作为汇总变量，可以得到图3-13的汇总结果。图3-13 分性别和年龄的平均身高在数据透视表中，双击任何一个汇总数据的单元格(包括合计项)，Excel都会把与这个单元格有关的所有观测复制到一个新的数据表中。使用数据透视表时需要注意，当你更改了原始数据以后，数据透视表中结果不会自动更新，要更新数据透视表中的数据需要手动刷新:在数据透视表中单击鼠标右键，选择“刷新数据”。用Excel进行组距分组 [例3.6]? 有时候我们需要根据定量变量进行组距分组。例如，假设我们现在要求对“统计成绩”这个变量按照60以下、60-69、70-79、80-89、90以上进行分组，在Excel中如何实现呢, 最方便的方式可能是使用FREQUENCY函数。这个函数有两个参数，第一个参数是要进行分组的数据所在的区域，第二个参数是各组界限所在的区域。要实现前面所说的分组，在各组界限的区域内要依次输入59，69，79，89。这时Excel会依次统计成绩小于等于59的人数、大于59小于等于69的人数、大于69小于等于79的人数、大于79小于等于89的人数，以及大于89的人数。注意Excel在统计人数时给出的各组上限值是分在这个组中的，这与统计学中的习惯做法不一致。在给定组限时可以多取一位小数使各组界限更加明确。需要注意的另外一点是FREQUENCY函数的返回结果总比给出的组限多一个，多出来的数值表示超出最后一个组限的数值个数。由于函数 FREQUENCY 返回一个数组，所以必须以数组公式的形式输入。具体操作方式是:选定区域C2:C6，输入一个等号，从函数库中选择FREQUENCY函数，输入函数的两个参数，最后再按Ctrl+Shift+Enter(图3-14)。图3-14? FREQUENCY函数的参数设定 top? 计算结果如表3-6。当然，在最后的分析报告中各组的界限需要调整为传统的方式。要修改数组函数的输出结果有时需要先把其公式通过选择性粘贴改为数值。表3-6 FREQUENCY函数的计算结果人数 59 3 69 10 79 6 89 13 ? 3成绩 ? IF函数对原始数据重新编码，生成一个新的变量，然后对新的变量进行汇总:IF A2 60,1,IF A2 70,2,IF A2 80,3,IF A2 90,4,5 。使用分析工具库中的直方图工具也可以完成组距分组，其原理与使用FREQUENCY函数是一样的。用SPSS进行分组汇总 SPSS的Means过程和Explore过程都可以完成分组计算，当然也可以使用统计表来完成计算。SPSS的统计表功能非常强大，提供了多个过程和灵活的定义方式，可以完成很复杂的统计表。这里我们只讲两个简单的例子。 [例3.7] 用SPSS的Means过程进行分组汇总。选择Analyze ?Compare Means ?Means，把统计成绩选入“Dependent List”框中，把性别选入“Independent List”框中，单击“Option”选择需要计算的统计指标，得到的计算结果如表3-7。从表中可以看出女成的考试成绩明显好于男生。表3-7 分性别的考试成绩性别 Mean N Std. Deviation Kurtosis Skewness 0 70.19 16 12.090 2.059 -1.278 1 80.00 19 11.504 -.466 -.664 Total 75.51 35 12.615 .816 -.771 ? [3.8] ?用SPSS计算分年龄和性别的平均身高。单击菜单栏中的Analyze?Tables?Basic Tables，可以得到图3-15的对话框。把需要分析的变量(身高)放到“Summaries”下面的矩形框中，行分类变量(性别)放到“Down”下面的矩形框中，把列分类变量(年龄)放到“Across”下面的矩形框中，点击“Statistics”按钮，从中选择需要计算的统计指标(均值)，点击“Total”按钮选中“Table-margin Totals”复选框，可以得到表3-8的汇总结果。如果在分组时采用多个行分类变量或列分类变量，SPSS可以轻松实现复合分组。图3-15 SPSS统计表的对话框 -8 分年龄和性别的平均身高表3 Mean 20 21 22 Table Total 男 172 171 175 172 女 161 161 164 162 Table Total 168 164 169 167 ? 如果需要用SPSS进行组距分组，可以使用RECODE命令对数据进行重新编码。当然，如果分组的目的是为了绘制直方图以观察数据的分布状况，则不必要进行手工的组距分组，绘制直方图时SPSS可以自动对数据进行分组。? top? Ch.4 用Excel和SPSS制作统计图 4.1 用Excel和SPSS制作常用统计图制作统计图应该注意的问题一般来说统计图能够更有效地向读者传达信息。然而，一幅拙劣的图形却可能使读者不知所云，甚至传达出错误的信息。总体说来，要得到一幅科学的统计图形应该注意以下几个方面的问题: 1、通过选择恰当的图形类型、刻度、长宽比例等，使图形能够准确反映数据中包含的信息，而不是歪曲事实。例如，不恰当的三维效果常常会引起误解。 2、图形要尽量简明。图形应该突出所要传达的信息，不必要的标签、背景、网格线、等会分散读者的注意力。图形越简单，读者就越能够迅速理解你要传达的信息。 3、图形应该有清楚的标题和必要的说明，明确图形的含义、计量单位、坐标轴代表的变量、资料来源等等。 4、反复加工和修改是获得优秀统计图形的重要步骤。统计软件给出的统计图形没有多少可以不加修改而直接应用。要得到一个图形很容易，但要使图形符合要求往往还需要耐心地修改，就像一篇论文需要反复修改一样。用Excel制作常用统计图 Excel提供了强大的图形编辑能力，可以完成非常优秀的统计图形。然而，未经修改Excel图形甚至可能是错误的。我们这一节只介绍三种最常用的图形:线图、条形图和饼图的绘制方法。使用Excel作图时需要特别注意:在有些图形中你可以用鼠标移动图形中的数据点，Excel会根据新的位置修改原始数据～一定要避免这一方面的误操作。 1、线图(Line Plot)。线图常用于描绘连续的数据，有助于观察现象发展的长期趋势。 [例4.1] 表4-1是我国1991-2003年的就业人数。根据数据绘制线形图。表 4-1是我国1991-2003年的就业人数年份就业人数(万人) 年份就业人数(万人) 1991 65491 1998 70637 1992 66152 1999 71394 1993 66808 2000 72085 1994 67455 2001 73025 1995 68065 2002 73740 1996 68950 2003 74432 1997 69820 ? ? top? 单击工具栏中的，或者使用菜单栏中的“插入”?“图表”，会弹出Excel 的图表向导。从中选择“折线图”，在下一步中把就业人数的区域(包括变量名)指定为数据区域，单击“完成”，就可以得到图4-1。很多情况下Excel会自动识别数据区域，但自动识别数据区域时最容易出现的错误是不能正确识别用于分类轴的数据，而把它作为“系列”数据使用。这时需要从“系列”数据中删除分类序列，并为图形指定分类序列。图4-1 Excel默认格式下的线图图4-1显然不是一个理想的图表。由于只有一个变量，图例和图表标题是不必要的;背景使图形不够鲜明，网格线使图形显得比较凌乱;横坐标没有显示相应的年份;纵坐标从60000万人开始可能不够合理，而且没有标出单位。下面我们来对图4-1进行修改。在图表区单击右键，选择“源数据”，在弹 )轴标志”对应的数据区域(不要包含变量名)。这出的对话框中指定“分类(X 样横轴就可以显示年份了。仔细观察图3-15，你会发现横轴的刻度线与Y的值不是垂直对应的，Y的值处于刻度之间。要改变这种显示方式，在图形的横轴上双击鼠标左键，在弹出的对话框中选择“刻度”选项卡，取消选中“数值(Y)轴至于分类之间”的复选框。你还可以在这个对话框中进一步设定横轴的字体、对齐方式等等。在字体设定中最好取消选定“自动缩放”的复选框，这会使字体随着图形大小的调整而变化。删除图例和图形内的标题，去掉图形的外框，修改图形背景以及网格线的格式，最后把纵轴的刻度改为从0开始，为纵轴加上单位，调整后的图形如图4-2。要熟练掌握图表属性的修改方法最重要的就是多练习，具体操作方法可以参见Excel的帮助文件。对比图4-1和4-2，你会发现虽然在数学意义上两个图形都没有错的，但纵坐标起始值的调整对图形的形状有较大影响，原始的图形可能给人以就业人数迅速增加的错误印象。我们这里着重强调的一点是统计软件自动确定的坐标轴的刻度不一定是最恰当的。在实际应用中坐标轴从0开始标注也不一定是最好的选择。图4-2 1991年-2003年我国的就业人数(年底数) top? 2、条形图(Bar Chart)。本书所说的条形图指的是Excel中所说的“柱形图”。 [例4.2] 根据学生调查的结果，学生对使用英文教材的态度如表4-2。根据数据绘制条形图。表4-2 学生对使用英文教材的态度对使用英文教材的态度百分比非常不好 8.57% 不太好 31.43% 17.14% 比较好 22.86% 非常好 20.00% ? 无所谓 Excel绘制条形图，经过调整后的结果如图4-3。 -3 学生对使用英文教材的态度图4 使用Excel图形需要注意的一个问题是，虽然Excel中的大部分图形都可以使用三维效果(图4-4是一个条形图的例子)，但许多数据处理专家都反对这类图形。在图4-4中第三维(深度)并不是依据有意义的数据绘制的，而且根据这类图形很难准确读出图形所表现的数值。根据图4-4，你能正确判断对是否使用英文教材“无所谓”的学生占17.14%吗,看起来像不像15%或20%,由于类似的原因，Excel提供的圆锥图、圆柱图和棱锥图也不应用于学术报告中。当然，如果你3个数轴都代表了有实质意义的变量，使用真正意义上的三维图形是必要的。图4-4 对使用英文教材的态度:三维效果 3、饼图(Pie Chart)。饼图常常用于显示相对比例或者对整体的贡献。这种图形只能使用一个数据系列，对于显示很少的几个数据点很有效，但数据量太大时则很难说明问题。通常饼图中的数据点不应多于6个。有学者指出，饼图不过是用极坐标表示的条形图而已，当数据点过多时饼图不如条形图清晰。例如，表4-2的数据就可以用图4-5饼图来显示。只要在Excel的条形图中单击鼠标右键选择“图表类型”，把图表类型改为饼图，在对图形的边框、数据标志、字体等做必要的修改就可以了。图4-5? 学生对使用英文教材的态度饼图用SPSS制作常用统计图 SPSS具有很强的制图功能，可以绘制多种统计图形。这些图形可以由各种统计分析过程产生，也可以直接由菜单Graphs 图形菜单产生。SPSS 图形的制作可分为三个过程:建立数据文件;生成图形;修饰生成的图形。 top? 1、线图。例4.3] 以表3-9的数据为例用SPSS制作线图。 [ 选择Graphs ? Line 进入Line Chart 对话框(图4-6)。有3种线图可选:Simple为单一线图，Multiple 为多条线图，Drop-line 为落点线图。本例选单一线图。在定义选项框的下方有一数据类型栏，提供了3种数据类型:Summaries for groups of cases 以分组数据的汇总结果为数据点绘图;Summaries of separate variables 以变量的汇总结果为数据点绘图;Values of individual cases 以各个观测的观察值为数据点绘图。本例中选择第三种情况。单击define按钮，把就业人数选为需要绘制的变量，把年份定义为分类变量，单击“OK”后就可以得到一个图形了。在SPSS中双击该图形可以对图形的各个元素进行修改，修改后的图形见图4-7。图4-6 线图类型的选择框图4-7 我国就业人数的线图 2、条形图。 [例4.4] 用SPSS做一个分组的条形图，比较学生调查中男生和女生对统计学的兴趣。选择Graphs?Bar，在Bar Chart对话框中把条形图的类型选为Clustered(复式条形图)，将数据类型选择为Summaries for groups of cases。接下来，在定义条形图的对话框(图4-8)中选择分类变量为“兴趣”，每一类别中的分组变量为“性别”，用条形代表观测数的百分比，点击“OK”后就可以得到分组条形图了。对图形进行进一步的修改后得到的图形如图4-9。图4-8 条形图的定义框图4-9 对统计学兴趣的性别差异 ? top 3、饼图。例4.5] 作出学生对统计学兴趣百分比的饼图。 [ 选择Graphs?Pie，在Pie Chart选项框中选择Summaries for Groups of Cases，在接下来的对话框中，在“Slices Represent”选项中选择% of cases，在“define slices by”框中选择变量“兴趣”，点击OK按钮完成图形，然后对图形进行必要的修改，可以得到图4-10的结果。图4-10 学生对统计学课程的兴趣 4.2? 描述数据分布状况的统计图直方图、箱线图、茎叶图等都可以用来描述数据的分布状况，其中最为常用的是直方图。用Excel绘制直方图虽然Excel的分析工具库提供了绘制直方图(Histogram)的功能，但Excel所绘制的直方图实际上就先对数据进行分组，然后根据分组资料绘制的条形图，而不是统计意义上的直方图。因此，如果你有其他的软件可用，我们不建议你用Excel的直方图功能。如果要用Excel绘制的直方图，一定要对Excel给出的图形进行必要的调整。 [例4.6] 用Excel来绘制学生调查中“概率成绩”的直方图。使用直方图工具与使用FREQENCY函数类似，需要指定分组界限(做直方图时也可以不指定分组界限，但注意Excel完成的直方图是无法调整分组界限的)。单击工具?数据分析?直方图，会弹出直方图对话框(图4-11)。定义了输入区域(数据区域)、接受区域(分组界限)后，将输出选项定义为当前表格的中的一个单元格，选中“图表输出”复选框，“确定”后Excel会给出相应的频数分布表(表4-3)和“直方图”(图4-12)。概率成绩的最低分为49分，最高分为92分，我们以40-50，50-60，60-70，70-80，80-90，90-100来进行分组: 、59、69、79、89，将这个区域作为接受区域。在Excel表格中输入49 注意在表4-3，Excel所说的“频率”实际上是频数(次数)。另外一点是Excel在对数据进行分组时总会增加一组(大于接收区域最后一个组限的数据个数)，即使这个组中没有数据。图4-12实际上就是根据表4-3作的条形图。要把这个条形图调整成直方图的形式至少需要做以下两方面的修改:一是各条形之间不应该有间隔;二是横轴标注的刻度应该是连续的区间。首先，双击图中的条形区域，在弹出的数据系列格式对话框的“选项”选项卡中把分类间距调整为0，这样各个条形之间就是连续的了。其次，双击图形的横轴，把横轴的字体颜色改为白色，字体背景色改为透明，把原来的横轴数值隐藏起来，然后在图形中添加一个文本框，在横轴的对应位置标出相应的数值。对图形再进行一些细微调整，最后得到的直方图如图4-12。 top? 图4-11 Excel的直方图对话框表4-3 Excel生成的次数分布表接收频率 49 1 59 0 69 7 79 15 89 8 其他 4 4-12 Excel生成的“直方图” 图4-13 调整后的直方图用SPSS绘制直方图 1、根据原始数据绘制直方图。 [例4.7] 用SPSS制作统计成绩的直方图。调用Graphs 菜单的Histogram 过程可绘制直方图。在Histogram对话框中把“概率成绩”变量选入Variable 框，再点击OK钮就完成了，SPSS会自动确定分组界限。如果对SPSS确定的分组界限不满意，可以用以下方法进行修改:双击直方图进入编辑状态，然后双击条形，会弹出图4-13所示的属性对话框，在Histogram Options选项卡中，把Anchor First bin改为Custom value for anchor，其值取为45;把Bin Size改为Custom，指定区间长度为5。你还可以要求在图形中添加一条正态曲线进行对比(图4-14)。对图形的其他特性再作进一步修改，最后得到的直方图如图4-15。图4-14? SPSS的直方图修改对话框图4-15 SPSS绘制的直方图 top? 2、根据分组数据绘制直方图。 [例4.8] 用SPSS根据分组资料绘制直方图。如果需要根据分组数据绘制直方图，首先要正确输入数据()，为数据指定相应的权数，然后再使用Histogram 过程作图。据对学生月支出的情况作直方图，结果如图4-16所示。图4-16 ?SPSS根据分组数据绘制的直方图 SS绘制茎叶图和箱线图 1、茎叶图。在数据数量不太多时，茎叶图可以很好的反映数据的分布状况，并且能够保留原始数据的信息。Excel没有提供创建茎叶图的功能。 [例4.9] 用SPSS创建茎叶图。在SPSS中选择Analyze?Descriptive Statistics ? Explore过程可以完成茎叶图的绘制。在Explore对话框中，单击Plots按钮，选中“Stem-and-leaf”复选框(这是默认选项)，在输出结果中就会看到茎叶图。对学生调查中的身高数据作茎叶图，结果如图4-17。在茎叶图的输出中，第一组的茎为15，叶分别为8，8，9，9，茎的宽度为10(Stem width: 10)，说明这一组的实际数值分别为15.8*10 158、158、159、从茎叶图可以看出身高的中位数和众数都等于165厘米。159，共有4个数据。 SPSS在作茎叶图时如果发现数据中有极端值会单独作为一组标出，而不作为茎叶图的一部分;如果数据位数很多，可能会舍弃后面数据位的数值。图4-17 茎叶图 top? 2、箱线图(Box plot). Excel没有提供直接绘制箱线图的功能。 [例4.10] 用SPSS绘制箱线图。在SPSS中可以通过Graphs?Boxplot调出绘制箱线图的对话框(图4-18)。在这个对话框中选择“Simple”、并选择“Summaries for groups of cases”，在接下来的对话框中把“统计成绩”作为分析变量，把性别作为分类变量，得到的箱线图如图4-19。 SPSS中的箱线图是这样绘制的:先根据三个四分位数(Q1、Q2、Q3)画出中间的盒子。盒子的长度Q3-Q1称为四分位距(interquartile range，IQR)。然后，由Q3至Q3+1.5*IQR区间内的最大值向盒子的顶端连线;如果数据处于Q3+1.5*IQR至Q3+3*IQR的范围内用圆圈标出，超出了Q3+3*IQR的用星号标出。在Q1一侧也用类似的方法绘制:由Q1至Q1-1.5*IQR区间内的最小值向盒子的底部连线;Q1-1.5*IQR至Q1-3*IQR的范围内用圆圈标出，小于Q1-3*IQR的用星号标出。在图3-33中我们可以看出，有一个男生的统计成绩在Q1-1.5*IQR至Q1-3*IQR的范围内，这个人的观测号是3(圆圈旁边的数字“3”表示观测号)。图4-18 SPSS的箱线图对话框图4-19 箱线图? Ch.5? 概率分布与抽样分布 5.1? 用Excel和SPSS进行概率计算.. 2 抽样分布.. 5 5.2? 在Excel和SPSS中都有丰富的概率函数，可以帮助我们进行各种类型的概率计算，进行各种类型的随机模拟试验来学习统计学原理。统计软件中与概率分布有关的函数可以分为4类: (1)计算分布的概率或概率密度的函数 PDF ; (2)计算分布的累积概率的函数 CDF ; (3)计算分布的累积概率函数的反函数 IDF ; (4)随机模拟服从某种分布的数据。 Excel可以计算大部分常用理论分布的PDF、CDF和IDF(但没有直接提供F分布和t分布的密度函数)，并且可以模拟产生服从大部分常用理论分布的数据。但是，同一类型的Excel函数对参数的要求以及输出结果的定义方式很不一致，对我们使用这些函数造成了一定困难，要求我们在使用Excel概率函数时一定要真正理解Excel的概率函数，避免对概率函数的误用。如果能够正确使用，Excel可以成为非常强大的学习工具。 SPSS提供的概率函数比Excel要丰富，使用也很方便。就计算的准确性而言，有研究表明至少在Excel 2003以前的版本中的随机数发生器和一些分布函数的计算结果不如专门的统计软件精确。本章我们通过一些例子来说明使用Excel和SPSS进行概率计算和随机模拟的方法。由于在Excel和SPSS中这些函数的使用方法非常类似，本章的讲解我们以Excel为主进行讲解，SPSS的相应功能只作简单的介绍。 top? 5.1 用Excel和SPSS进行概率计算用Excel计算分布的概率或概率密度对于离散分布如二项分布或泊松分布，Excel可以计算出x取特定值的概率值。而对于连续分布，我们可以通过密度函数对概率分布有直观的了解。在常用的连续分布中，Excel可以计算正态分布的密度函数，但没有直接提供t分布、F分布、χ2分布的密度函数，SPSS提供了所有常用函数的密度函数。例5.1] ?用Excel计算正态分布的密度函数并绘制正态分布的图形。 [ 计算中需要使用的函数是:NORMDIST x,mean,standard_dev,cumulative 。该函数有四个参数，第一个参数是x的值，第二、三个参数是正态分布的均值和标准差，最后一个参数为一逻辑值，指明函数的形式。如果 cumulative 为TRUE(或非零实数)，函数 NORMDIST 返回累积分布函数;如果为 FALSE(或0)，返回概率密度函数。打开一个新的工作表，在第一行输入变量名，A2单元格输入数值-3.5。接下来，单击A2单元格使其成为活动单元格，单击菜单“编辑”?“填充”?“序列”，在弹出的对话框中选择序列产生在列，类型为等差序列，步长值为0.1，终止值为3.5，可以在构造一个由-序列(图5-1)。图5-1 构造-3.5 -3.5 的等差序列在B2单元格输入“ ”，从统计函数中选择函数NORMDIST，设定函数的参数为NORMDIST A2,0,1,0 ，B2单元格就会计算出相应的密度函数。然后用拖动的方法在B3:B72复制公式，就可以得到所有的密度函数值了。用生成的数据作XY散点图(选择无数据点平滑线散点图)，对图形作必要的修改后得到的正态分布图形如图5-2。散点图就是用X、Y的取值作为横坐标和纵坐标，在图形上描点获得的图形，主要用于表现两个变量之间的相互关系。图5-2 标准正态分布的密度曲线用Excel计算分布的累积概率我们经常需要利用分布的累积概率来进行有关的各种计算，在传统的统计学教学中这些概率都需要通过查表来获得。我们这里通过一些例子来说明使用不同的分布进行有关计算时需要注意的问题。 1、二项分布。例5.2] ?假设每天有5个由北京飞往上海的航班，每次航班晚点的概率等[ 于0.2。请问今天恰好有两个航班晚点的概率是多少,最多有两个航班晚点的概率是多少, 每天晚点的航班数服从二项分布。相应的概率可以使用Excel二项分布函数来计算。该函数的形式为:BINOMDIST number_s,trials,probability_s,cumulative 。参数Number_s为试验成功的次数，Trials为独立试验的次数，Probability_s为每次试验中成功的概率。Cumulative为一逻辑值，用于确定函数的形式。如果cumulative 为 TRUE，函数 BINOMDIST返回累积分布函数，即至多 number_s 次成功的概率;如果为 FALSE，返回概率密度函数，即 number_s 次成功的概率。因此对第一个问题，在单元格中输入公式 “ BINOMDIST 2,5,0.2,0 ”。得到的答案为0.2048。对第二个问题，在单元格中输入公式 “ BINOMDIST 2,5,0.2,1 ”。得到的答案为0.94208。 2、正态分布。对于给定的x值，NORMDIST函数在计算累积概率时返回的是从负无穷到x的积分，即图4-3中阴影部分的面积。注意Excel可以直接计算x为负值时的累积概率。图5-3 正态分布累计函数的返回值为阴影面积 top? [例5.3] ?已知学生的统计考试成绩服从均值为72，标准差等于8的正态分布，求学生成绩不及格的概率和处于65-80之间的概率。学生成绩不及格的概率可以使用公式“ NORMDIST 60,72,8,1 ”计算，计算结果为0.066807。公式“ NORMDIST 65,72,8,1 ”的结果为0.190787，公式“ NORMDIST 80,72,8,1 ”的计算结果为0.841345，二者之差0.650558即为成绩处于65-80之间的概率。 3、t分布。的函数为TDIST x,degrees_freedom,tails 。Excel中计算t分布累计概率 X为需要计算分布的数字，Degrees_freedom为自由度，Tails指明返回的分布函数是单尾概率还是双尾概率。tails 1时函数TDIST返回单尾概率，tails 2时返回双尾概率。计算双尾概率时TDIST的返回值为P |X| x ，即图4-4中阴影的面积;计算单尾概率时TDIST的返回值为P X x ，即图5-4中右侧阴影的面积。这一点与正态分布很不一致。t累积分布函数与正态分布的另一点不同是t分布要求输入的x为正值。图5-4 计算双尾概率时t累积分布函数的返回值为阴影面积 [例5.4] ?已知随机变量X服从自由度为10的t分布，计算P |X| ?2 。 P |X| ?2 1- P |X| 2 。在单元格中输入公式“1- TDIST 2,10,2 ”，可知相应的概率等于0.926612。 4、F分布。 FDIST x,degrees_freedom1,degrees_freedom2 的三个参数分别为x的值，分子的自由度和分母的自由度。F分布的返回值为FDIST P F x ，即图4-5 所示的面积。图5 -5 F累积分布函数的返回值为阴影面积用Excel计算累积概率分布的反函数已知一定的概率值求概率分布中相应的x值是另外一种重要的统计计算。这种计算是累积分布函数逆运算。 1、对正态分布，相应的函数为NORMINV probability,mean,standard_dev ，其中要求的概率参数为从负无穷到x的积分，即图5-3中阴影的面积。 2、对t分布，相应的函数为TINV probability,degrees_freedom ，其中 -4中阴影的面积，这一点在使用这一函数时要求的概率参数为双尾概率，即图5 应特别注意。例如，公式“ TINV 0.05,10 ”的返回值为2.228，说明x 2.228时图4-4中左右两个阴影的面积等于0.05。 3、对F分布，相应的函数为FINV probability,degrees_freedom1,degrees_freedom2 ，其中要求的概率参数为图5-5中阴影的面积。 SPSS中的有关函数在SPSS的函数中，计算概率(离散分布)和概率密度(连续分布)的函数在“PDF & Noncentral PDF”一类中，有关函数都是以Pdf开头的;计算累计概率的函数在“CDF & Noncentral CDF”一类中，有关函数都是以Cdf开头的;累计概率函数的反函数在 “Inverse DF”一类中，有关函数都是以Idf开头的。使用这些函数时需要仔细查看函数对参数的要求，以免误用。 top? 5.2 抽样分布统计量的分布称为抽样分布，它是统计学中的核心概念之一，正确理解这一概念对于理解参数估计和假设检验中的有关方法至关重要。统计软件提供的随机数发生器可以使我们对抽样分布进行计算机模拟，对抽样分布有更加直观的理解。 Excel的分析工具库中有一个“随机数发生器”模块，可以产生服从大部分常用分布的模拟数据，但没有提供直接产生随机数的函数。在SPSS中产生随机数的函数在“Random numbers”类别中，相应的函数都是以Rv开头的。样本均值抽样分布的随机模拟假总体的均值为μ，标准差为σ，则统计理论表明，不论总体的分布如何，只要样本容量n足够大，样本均值的分布总会趋向于正态分布，且均值为μ，标准差为。 [例5.5] ?假设总体为均匀分布，模拟样本均值的抽样分布。 -1区间上的均匀分布，则总体的均值为0.5，方差等于假设总体的分布为0 1/12，标准差等于0.288675。现在，我们从总体中抽取1000个样本容量为2的样本(有放回抽样)，计算每个样本的样本均值，然后观察样本均值的分布状况。新建一个Excel工作簿，单击“工具”?“数据分析”?“随机数发生器”，在弹出的对话框中把变量个数设为2，随机数个数为1000，选择0-1区间的均匀分布，结果放在新工作表中(图5-6)。把输出结果的每一行看作一个容量为2的样本，共有1000个样本。在C列中计算每个样本的均值。接下来我们就可以分析这1000个样本均值的分布状况了。由于SPSS的直方图工具更为方便，我们把相应的数据复制到SPSS中作直方图，结果如图5-7，抽样分布的均值为0.5097，标准差为0.20345，理论值等于0.288675/ 0.20412，两者差异不大。图5-6 随机数发生器对话框图5-7 样本均值的抽样分布，样本容量 2 用类似的方法模拟样本容量等于10和30时样本均值的抽样分布，得到的直方图分别为图4-8和图4-9。样本容量为10时抽样分布的均值为0.4992，标准差为0.09326;样本容量为30时抽样分布的均值为0.4993，标准差为0.05368。抽样分布的标准差与总体标准差的理论关系都近似成立。读者也可以用随机数发生器检验总体为其他分布时样本均值的抽样分布。图5-8 样本均值的抽样分布，样本容量 10 图5-9? 样本均值的抽样分布，样本容量 30 top? 样本比例抽样分布的随机模拟样本比例实质上就是指标数值只能取0和1时的样本均值。由于在这种情况下总体的分布为0-1分布，因此在重复抽样的条件下样本均值抽样分布的理论分 ?5，nq?5)布是二项分布。中心极限定理表明当样本用量足够大(能够保证np时二项分布可以用正态分布来近似。假设总体中发生某种事件(取值为1)的概，用表示样本比例，则有，。率为p [例5.6] ?假设有大批零件，不合格率p为0.2。随机模拟从总体中抽取样本容量分别为5，20，50的2000个样本，分析样本比例的抽样分布。新建一个工作表，在单元格中输入图5-10左上角所示的信息作为总体:总体中取值为1(不合格)的概率为0.2，取值为0(合格)的概率为0.8。图 5-10 二项分布的随机模拟 top? 使用Excel的随机数发生器，在分布中选择“离散”，数值与概率区域选为$A$1:$B$2，变量个数设为5，随机数设为2000(图5-10)。在输出数据中，把每一行看作一个随机样本，计算样本比例(均值)。在SPSS中作样本比例抽样分布的直方图，如图5-11。图 5-11 ?样本比例的抽样分布，样本容量 5 用类似的方法模拟n 20和n 50的情况，得到的直方图如图5-12和5-13。从模拟结果可以看出，随着样本容量的逐渐增大，样本比例的抽样分布是趋向于正态分布的。请读者自行验证分布的标准差与总体标准差的关系与理论推导是否一致。图5-12样本比例的抽样分布，样本容量 20 图5-13样本比例的抽样分布，样本容量 50 ?6.2 使用Excel和SPSS进行假设检验 .. 2 ?用Excel计算p-值.. 3 使用Excel函数和分析工具库进行假设检验.. 4 使用SPSS进行假设检验.. 8 在假设检验中最常用的检验规则是计算检验统计量的实际值和临界值，通过实际值和临界值的对比得出检验结论;或者计算统计量实际值的p-值，通过p- 值和显著性水平α的对比得出结论。假设检验中使用的数据可以分为两种情况:一是经过统计汇总的数据，已经得到了样本均值和标准差(或者总方差已知);二是原始数据。在前一种情况下需要解决的计算问题是计算统计量的临界值，或者根据统计量的实际值计算p-值;在后一种情况下则可以使用统计软件直接得出统计量的临界值和检验的p-值。 top? 检验统计量临界值的计算在已知样本的均值、标准差(或者总方差已知)时，可直接计算出检验统计量的值，然后使用Excel或其他软件计算统计量的临界值，通过实际值与临界值的对比得出检验结论。用Excel计算统计量的临界值时需要特别注意两个方面的问题。一是检验的类型:是双侧检验、左侧检验还是右侧检验,双侧检验和单侧检验计算临界值时对显著性水平处理方式不同，双侧检验要求每一侧的尾部面积为α/2，而单侧检验要求在拒绝域一侧的尾部面积为α。二是在Excel中正态分布、t分布和F分布累积分布反函数中对概率参数的要求不同，注意分清楚这个参数与显著性水平的关系。 [例6.7] ?某机器制造的产品厚度应为5厘米。为了了解机器的性能是否良好，从产品中随机抽取10件，样本均值为5.3厘米，样本标准差为0.3厘米。已知总体服从正态分布，著性水平总体均值是否等于5厘米。根据题意这里应该使用t统计量。检验统计量等于。在这个例子中应该使用双侧检验，95%的临界值在Excel中应该使用公式“ TINV 0.05,9 ”计算，结果为2.2622。99%的临界值为“ TINV 0.01,9 ”等。因此，检验的结论是，在0.05显著性水平下拒绝零假设，在0.01于3.2498 的显著性水平不能拒绝零假设。 [例6.8] ?一手机厂商声称其某种型号的手机在完全充电的情况下待机时间在150小时以上。为了对此进行检验，经销商随机选择了20部手机进行测试，发现平均待机时间为148小时，样本标准差为3小时。试检验在5%的显著性水平下厂商的说法可靠吗, 对于这个问题，检验的零假和备择假设应设为:，。检验统计量。检验的临界值为“ -TINV 0.10,19 ”，等于-1.729。由于实际值小于临界值，拒绝零假设，检验的结论手机的待机时间小于150小时(图6-6)。图6-6 左侧检验中t检验的实际值和临界值 top? ?用Excel计算p-值在统计软件中最常用的假设检验方法是根据检验统计量的观测值计算p-值，然后将p-值与α比较得出检验结论，当α p-值时拒绝零假设。 p-值得计算方法取决于检验的种类(双侧检验、左侧检验还是右侧检验)以及分布的类型。对于t分布，用tobs表示t统计量的观测值，在双侧检验时p-值 P |t|?|tobs| ;在右侧检验时p-值 P t?tobs ;左侧检验时p-值 P t? tobs 。正态分布时p-值的计算与t分布类似，只是将t统计量换成z统计量。 p-值的含义可以用以下三个图形来说明。假设统计量的样本观测值等于2，在双侧检验时的p-值如图6-7;右侧检验时的p-值如图6-8，左侧检验时的p-值如图6-9。图6-7? tobs 2，双侧检验时的p-值等于阴影部分的面积图6-8? tobs 2，右侧检验时的p-值等于阴影部分的面积图6-9? tobs 2，左侧检验时的p-值等于阴影部分的面积此在双侧检验时p-值等于P 例如对于前面机器性能的例子，tobs 3.16。因 |t|?3.16 ，写成Excel的公式为“ TDIST 3.16,9,2 ”，结果为0.01155。显 0.05时可以拒绝零假设，α 0.01时不能拒绝。然，在α 如果这是一个右侧检验问题，则p-值等于P t?3.16 ，写成Excel的公式为“ TDIST 3.16,9,1 ”，结果为0.005775。如果这个问题是一个左侧检验问题，则p-值等于P t?3.16 1- P t 3.16 1-0.005775 0.994225。 top? 使用Excel函数和分析工具库进行假设检验在实际应用中，我们更希望根据样本数据直接得到检验结果，而不经过前面所说的复杂步骤。Excel提供的一些函数和模块可以帮助我们完成这些任务。 1、利用ZTEST函数进行单样本z检验。如前所述，在总体方差已知，或者大样本的情况下可以用z统计量对总体的均值进行假设检验。Excel的ZTEST函数可以帮助我们完成这一检验。这一函数的形式为:ZTEST array,μ0,sigma 。array用来输入数据序列，μ0为假设的总体均值，Sigma为总体已知的标准差，如果省略，则使用样本标准差。特别注意ZTEST的返回值为从统计量的样本观测值向正无穷积分的面积，等于右侧检验时的p值。双侧检验的p-值 2 * MIN ZTEST array,μ0,sigma , 1 - ZTEST array,μ0,sigma 。左侧检验的p-值 1 - ZTEST array,μ0,sigma 。 [例6.9] ?对于学生调查中的身高数据，用正态分布检验能否认为总体的平均身高等于169厘米。在Excel的单元格中输入公式“ ZTEST J2:J36,169 ”，得到的概率为0.980391。因此检双侧检验的p-值等于2*(1-0.980391) 0.039218。在5%的显著性水平下应该拒绝零假设。 2、用分析工具库进行双样本均值的z检验。在比较两个已知方差的正态总体的均值是否相等时使用的是正态分布。Excel分析工具库中的“z-检验:双样本平均差检验”可以完成这类检验。 [例6.10] ?对学生调查中男女生的身高进行假设检验，假设已知男生身高的方差为25，女生身高的方差等于9。把数据整理成图6-10的形式，调用“z-检验:双样本平均差检验”模块，在相应的位置输入数据区域和已知的方差，得到的结果见图6-10。从分析结果看，双侧检验的p-值为8.47766*10-13，检验的结论显然是拒绝零假设。图6-10 用Excel进行双样本均值的z检验 top? 3、利用分析工具库进行单样本和配对样本的t检验。 Excel的提供的t检验模块提供了成对样本的t检验。如果我们需要进行单样本的t检验，只需要在成对样本t检验中把第二个序列设为单样本检验中的常数μ0就可以了，因为成对样本的t检验本质上就是对两个样本对应数值之差进行的单样本的t检验。 [例6.11] ?对学生身高的数据，检验能否认为学生的平均身高等于169厘米。像图6-11那样输入数据，然后调用分析工具库中的“t-检验:平均值的成对双样本分析”，设置必要的参数(图6-11)，得到结果如表6-2。输出结果中“P T t 双尾”对应的概率0.046928，这是双侧检验时的p-值。与前面按正态分布求解的结果相比p-值0.039218稍大了一些。注意单侧检验时的p-值根据具体情况会有所不同，不一定等于0.023464。图6-11 表6-2 ?成对样本t检验的输出结果 -检验: 成对双样本均值分析变量 1 变量 2 平均t 166.7714 169 方差 40.88739 0 观测值 35 35 泊松相 ? 假设平均差 0 ? df 34 ? t Stat关系数 #DIV/0! -2.06189 ? P T t 单尾 0.023464 ? t 单尾临界 1.690924 ? P T t 双尾 0.046928 ? t 双尾临界 2.032244 ? 4t检验。在总体方差未知时对两个独立样本均值的假设检验分为两种情况:方差相等和方差不等。在这两种情况下虽然使用的都是t统计量，但t分布的方差和自由度的计算公式不同。等方差时t分布的标准差，其中，自由度等于;不等方差时t分布的标准差，自由度等于。 [例6.12] ?前面我们曾用双样本的z检验比较过男女生的身高。现在我们用不等方差的独立样本t检验进行分析。调用“t-检验:双样本异方差假设”模块，输入相应的数据区域，检验结果如表6-3。由于p-值非常小，检验的结论也是不能认为男女生的身高相等。表6-3 双样本异方差假设时t检验的输出结果 t-检验: 双样本异方差假设 ? 男女平均 172.3125 162.1053 方差 24.62916667 6.432749 观测值 16 19 假设平均差 0 ? df 21 ? t Stat 7.448576386 ? P T t 单尾 1.26885E-07 ? t 单尾临界 1.720742871 ? P T t 双尾 2.53771E-07 ? t 双尾临界 2.079613837 ? top 5、利用分析工具库进行双样本方差的F检验。在总体方差未知的独立双样本的t检验中需要事先知道两个总体的方差是否相等。这一问题可以用分析工具库中的“F检验:双样本方差”来进行。例如对男女生身高的方差是否相等进行检验，可以调用“F检验:双样本方差”模块，定义相应的数据区域(图6-12)，检验结果见表6-4。一定注意双侧 -值等于“P F f 单尾”对应概率的两倍。在这个例子中相应的p-检验时的p 值等于2*0.004041033 0.008082066。由于p-值很小，因此检验的结论是男女生身高的方差不相等。图6-12 双样本方差F检验的对话框表6-4 双样本方差F检验的输出结果 F-检验双样本方差分析 ? 变量 1 变量 2 平均 172.3125 162.1052632 方差 24.62916667 6.432748538 观测值 16 19 df 15 18 F 3.828715909 ? P F f 单尾 0.004041033 ? F 单尾临界 2.268622192 ? top 使用SPSS进行假设检验 1、用SPSS进行单样本t检验。 [例6.13]? 以95%的置信度检验能否认为总体中学生的平均体重等于60公斤。打开相应的数据文件(或输入数据)，Analyze ?Compare Means ?One-Sample T Test，在弹出的对话框中将体重变量作为检验变量，栏中填入60，其余使用系统默认值，输出结果如表6-5。表6-5 单样本t检验 ? Test Value 60 ? t df Sig. 2-tailed Mean Difference 95% Confidence Interval of the Difference Lower Upper 体重 -1.872 34 .070 -3.057 -6.38 .26 ? 注意通常情况下软件给出的概率值都是双侧检验时的p-值。这里p-值 0.07，因此检验的结论是不能拒绝总体均值等于60的零假设。这一结论也可以根据SPSS给出的置信区间得出:如果置信区间包含,，则不能拒绝零假设。 ,、用SPSS进行配对样本的t检验。 [例6.14]? 随机选择了,名肥胖儿童试验一种减肥方案，减肥前后的体重如表6-6。根据实验结果，在5%的显著性水平下能否认为减肥方案有效, 表6-6 一种减肥方案的试验数据减肥前 45 55 54 48 56 53 62 49 减肥后 43 48 50 47 50 47 59 46 ? SPSS数据表，选择Analyze ?Compare Means ? Paired-Sample T Test，在弹出的对话框中将两个变量作为一组数据选为分析变量，输出结果如表6-7。表6-7 成对样本t检验的输出结果 ? Paired Differences t df Sig. 2-tailed ? Mean 标准差均值标准误 95% 置信区间 ? ? ? VAR1-VAR2 4.000 2.13809 .75593 2.2125 5.7875 5.292 7 .001 ? 根据本题的题意，将假设检验的零假设设为，备择假设设为。如果拒绝零假设则说明减肥方案有效。根据表6-7检验的t统计量等于5.292，双侧检验的p-值为0.01，因此右侧检验的p-值为0.0005。在5%的显著性水平下显然应拒绝零假设，结论是减肥方案有效。 top? 3、用SPSS进行独立双样本的t检验。 [例6.15]? 用SPSS来检验在5%的显著性水平下男女生的身高是否相等。选择Analyze ?Compare Means ? Indepentdent-Samples T Test，弹出的对话框如图6-13。把身高变量作为分析变量，性别作为分组变量。然后单击，“Define Groups”按钮来设置分组规则，这里在两个矩形框中分别输入0和1单击“Continue”返回主对话框，单击“OK”就可以了。输出结果如表6-7。 -13 图6 注意表6-8中包含了等方差的检验、等方差时的t检验和异方差时的t检验结果。读这个表时先看

                    本文档为【用EXCEL和SPSS学习统计学&#40;可编辑&#41;】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

用EXCEL和SPSS学习统计学&#40;可编辑&#41;

你可能还喜欢

用EXCEL和SPSS学习统计学(可编辑)