关闭

关闭

关闭

封号提示

内容

首页 spss讲义

spss讲义.ppt

spss讲义

陕北驴 2012-05-04 评分 0 浏览量 0 0 0 0 暂无简介 简介 举报

简介:本文档为《spss讲义ppt》,可适用于高等教育领域,主题内容包含StatisticalProgramforSocialSciences简介SPSS是StatisticalProgramforSocialScien符等。

StatisticalProgramforSocialSciences简介SPSS是StatisticalProgramforSocialSciences的简称即社会科学统计程序由美国SPSS公司年代推出迄今已有近年的历史。是国际著名三大社会科学统计软件包之一(SAS、SPSS、Statistica)。我们现在使用的是SPSSforWindows版。第一章SPSS初步--数据分析实例详解第一章SPSS初步--数据分析实例详解数据的输入和保存SPSS的界面定义变量输入数据保存数据数据的预分析数据的简单描述绘制直方图按题目要求进行统计分析保存和导出分析结果保存文件导出分析结果以SPSS版打开其他文件格式 直接打开使用数据库查询打开使用文本导入向导读入文本文件 编辑数据文件 定义新变量数据录入技巧 进一步整理数据文件Data菜单用于数据管理的菜单项正交设计菜单项例某克山病区测得例克山病患者与名健康人的血磷值(mmolL)如下,问该地急性克山病患者与健康人的血磷值是否不同?患者:健康人:让我们把要做的事情理理顺:首先要做的肯定是打开计算机(废话)然后进入Windows在进入SPSS后具体工作流程如下:将数据输入SPSS并存盘以防断电。进行必要的预分析(分布图、均数标准差的描述等)以确定应采用的检验方法。按题目要求进行统计分析。保存和导出分析结果。下面就按这几步依次讲解。数据的输入和保存数据的输入和保存SPSS的界面定义变量该资料是定量资料设计为成组设计因此我们需要建立两个变量一个变量代表血磷值习惯上取名为X另一个变量代表观察对象是健康人还是克山病人习惯上取名为GROUP。选择菜单Data==>InsertVariable。点击VariableView将变量名改为GROUP和X。现在第一、第二列的名称均为深色显示表明这两列已经被定义为变量其余各列的名称仍为灰色的“var”表示尚未使用。同样地各行的标号也为灰色表明现在还未输入过数据即该数据集内没有记录。输入数据在DataView中输入相应的数据一个单元格输入一个数据Group中输入代表患者代表健康人。保存数据选择菜单File==>Save由于该数据从来没有被保存过所以弹出Saveas对话框数据的预分析数据的预分析数据的简单描述首先我们需要知道数据的基本情况如均数、标准差等。选择Analyze==>DescriptiveStatistics==>Descriptives菜单系统弹出描述对话框如下:该对话框可分为左右两大部分左侧为所有可用的侯选变量列表右侧为选入变量列表。我们只需要描述X用鼠标选中X单击中间的变量X的标签就会移入右侧注意这时OK按钮变黑表明已经可以进行分析了单击它系统会弹出一个新的界面如下所示:该窗口上方的名称为SPSSViewer即(结果)浏览窗口整个的结构和资源管理器类似左侧为导航栏右侧为具体的输出结果。结果表格给出了样本数、最小值、最大值、均数和标准差这几个常用的统计量。从中可以看到个数据总的均数为标准差为。我们以上的做法对吗?当然有问题!光看总的描述是不够的还应当看看分组的描述情况。这里要用到文件分割功能请切换回数据管理窗口选择Data==>SplitFile菜单系统弹出文件分割对话框如下:选择单选按钮Organizeoutputbygroups将变量GROUP选入右侧的选入变量框单击OK钮此时界面不会有任何改变但请再做一次数据描述你就可以看到现在数据是分Group=和Group=两种情况在描述了!从描述可知两组的均数和标准差分别为、和、。如果定义了文件分割则它会在以后的所有统计分析中起作用直到你重新定义文件分割方式为止。绘制直方图统计指标只能给出数据的大致情况没有直方图那样直观我们就来画个直方图瞧瞧!选择Graphs==>Histogram系统会弹出绘制直方图对话框如下:将变量X选入Variable选择框内单击OK按钮。此时结果浏览窗口内会绘制出如下两个直方图:两组的数据没有特别偏的分布也没有十分突出的离群值因此无须变换可以直接采用参数分析方法来分析。综合设计类型最终确定采用成组设计两样本均数比较的t检验来分析。最后我们还要取消变量分割免得它影响以后的统计分析再次调出变量分割对话框选择单选按钮中的“Analyzeallcases,donotcreatgroup”单击OK按钮就可以了。按题目要求进行统计分析按题目要求进行统计分析下面我们要用SPSS来做成组设计两样本均数比较的t检验选择Analyze==>CompareMeans==>IndependentSamplesTtest系统弹出两样本t检验对话框如下:将变量X选入test框内变量group选入grouping框内注意这时下面的DefineGroups按钮变黑表示该按钮可用单击它系统弹出比较组定义对话框如右图所示:该对话框用于定义是哪两组相比在两个group框内分别输入和表明是变量group取值为和的两组相比。然后单击Continue按钮再单击OK按钮系统经过计算后会弹出结果浏览窗口首先给出的是两组的基本情况描述如样本量、均数等(糟糕刚才的半天工夫白费了)然后是t检验的结果如下:IndependentSamplesTestIndependentSamplesTest可见该结果分为两大部分:第一部分为Levene's方差齐性检验用于判断两总体方差是否齐这里的检验结果为F=p=可见在本例中方差是齐的第二部分则分别给出两组所在总体方差齐和方差不齐时的t检验结果由于前面的方差齐性检验结果为方差齐第二部分就应选用方差齐时的t检验结果即上面一行列出的t=ν=p=。从而最终的统计结论为按α=水准拒绝H认为克山病患者与健康人的血磷值不同从样本均数来看可认为克山病患者的血磷值较高。保存和导出分析结果保存和导出分析结果保存结果文件显然最方便快捷、最符合信息时代特征的就是第三种方法在结果浏览窗口中(注意:一定要在结果浏览窗口中)选择菜单File==>Save由于该结果也从来没有被保存过所以弹出和前面保存数据时极为相似的一个Saveas对话框和前面相比他唯一的区别就是文件的保存类型只有ViewFiles(*spo)一种。好闲言少叙在文件名框中键入“Li”并回车该结果文件就会按文件名Lispo被存储。导出分析结果文件倒是保存了但问题还没有完全解决:我们从来写文章什么的都用的是文字处理软件尤其是WORD可WORD不能直接读取SPO格式的文件怎么办呢?没关系SPSS提供了将结果导出为纯文本格式或网页格式的功能在结果浏览窗口中选择菜单File==>Export系统会弹出ExprotOutput对话框如下最上方的Export下拉式列表可以选择输出的内容可以为含图表的输出文档、无图表的输出文档和只有统计图表三种中部的ExprotFile对话框则填入输出的目标文件名左下方的ExportWhat单选框可以选择输出结果的哪些部分可以是所有结果、所有可见结果或只输出选择的结果一般选输出所有可见结果右下方的输出文件类型下拉式列表已被我打开可见里面有网页格式和纯文本格式两种在一切按所需选择完毕后按OK钮则结果文件就会输出为你想要的类型。好到这里就象我们刚开始所说的一样你实际上已经完全掌握了SPSS的基本使用方法。我们以后将要做的工作就是“百尺竿头更进一步”将从下一章开始详细介绍SPSS各个模块的精确用法使大家能尽快的从SPSS新手向SPSS高手过度。打开其他格式的数据文件打开其他格式的数据文件 直接打开SPSS现在可以直接读入许多格式的数据文件其中就包括EXCEL各个版本的数据文件。选择菜单File==>Open==>Data或直接单击快捷工具栏上的“”按钮系统就会弹出OpenFile对话框单击“文件类型”列表框在里面能看到直接打开的数据文件格式分别是:使用数据库查询打开SPSS可以直接打开许多类型的数据文件但这并不是说它可以打开所有类型的数据文件(废话)比如FoxPro以上版本的*dbf文件就不能直接打开(有兴趣的话你可以试试)。为此SPSS还提供了另一个适用范围更广、但使用上较为专业的数据接口--数据库查询。实际上SPSS在这里使用的是一种叫ODBC(OpenDatabaseCapture)的数据接口该接口被大多数数据库软件和办公软件(如MSOffice)支持通过它应用程序可以直接访问以结构化查询语言(SQL)做为数据访问标准的数据库管理系统。由于SPSS可以直接打开EXCEL所有系列的数据文件因此数据库查询接口的用处不是很大。但是在及以前的版本中该查询仍是直接打开EXCEL、及数据文件的唯一办法。ODBC数据引擎是独立与各种应用软件直接安装到Windows系统中的因此你所用的系统中ODBC所支持的数据类型取决于所安装的ODBC引擎的情况。还好大多数支持该接口的软件都会在安装光盘上附送该引擎的安装文件(如MSOffice)。不过有一点要提醒大家许多机器的OBDC数据引擎安装有问题(尤其是D版)在SPSS中使用它往往要死机。选择菜单File==>OpenDatabase==>NewQuery系统会弹出数据库向导的第一个窗口其中会列出你使用的机器上已安装的所有数据库驱动程序选中所需的数据源然后单击下一步向导会一步一步的提示你如何做直至将数据读入SPSS。使用文本导入向导读入文本文件选择菜单File==>ReadTextData系统就会弹出OpenFile对话框对!和前面的情况完全一样只是文件类型自动跳到了Text(*txt)。实际上该功能在SPSS中已被整合到了OpenFile对话框中之所以在菜单上保留该条目有两个原因:读入纯文本的情况非常普遍放在这里更加醒目为了和SPSS老版本的使用上保持兼容。例现有一数据文件以纯文本的形式存为“c:Litxt”且第一行为变量名请将其读入SPSS。解:在OpenFile对话框选中相应的文件名并单击“确定”系统会自动启动文本导入向导对话框如下: 编辑数据文件 编辑数据文件在SPSS中数据文件的编辑、整理等功能被集中在了Data和Transform两个菜单项中这两个菜单的内容如下所示:Data菜单项Transform菜单项 定义新变量直接定义新变量大多数情况下我们需要从头定义变量在SPSS中定义变量只需单击左下方的VariableView标签就可以切换到变量定义界面开始定义新变量。如Lisav的变量定义如下所示:以变量x为例:变量名为x类型为Numeric宽度为小数位数位(因小数点还要占一位故整数位只有一位)变量标签位为“血磷值”。右侧在图中未能看到的依次为Values用于定义具体变量值的标签Missing用于定义变量缺失值Colomns定义显示列宽Align定义显示对齐方式Measure定义变量类型是连续、有序分类还是无序分类。使用该窗口我们可以一次定义许多新变量不会象老版本那样一个一个的定义了。标签和老版本不同现在变量标签和变量值标签被分开设置变量标签就在Label框中直接输入变量值标签则在它右侧的Value框定义。以group为例单击Value框右半部的省略号会弹出变量值标签对话框如右:上部的两个文本框分别为变量值输入框和变量值标签输入框分别在其中输入“”和“克山病患者”此时下方的Add钮变黑单击它该变量值标签就会被加入下方的标签框内。与此类似定义变量值“”为“健康人”最后按OK变量值标签就设置完成。此时你做任何分析在结果中都有相应的标签出现。如果你现在就想看效果切换回DataView界面然后选择菜单View==>ValueLabels怎么样看到了吗?缺失值单击missing框右侧的省略号会弹出缺失值对话框如下:界面上有一列三个单选钮默认值为最上方的“无缺失值”第二项为“不连续缺失值”最多可以定义个值最后一项为“缺失值范围加可选的一个缺失值”ComputeVariable对话框这主要用于对原变量通过一定的计算产生新变量的方法。例在lisav中建立新变量temp令其值当血磷值大于时为否则为。首先给变量temp均赋值为然后将血磷值大于的记录其temp变量值改为即可。第一步:选择菜单Transform==>Compute弹出ComputeVariable对话框如下:左上角为需要计算的变量名在其中键入“temp”此时“TypeLable”按钮就会变黑喜欢精确的朋友可以在这里对temp进行详细的定义左下方为候选变量列表现在还用不着中部为类似计算器的软键盘可以用鼠标按键输入数字和符号这里我们直接输入“”输入的内容回立刻在右上方的数值表达式窗口中出现软键盘右侧为函数窗口可以在这里找到并使用所需的SPSS函数这次也用不到。好现在“OK”按钮已经变黑单击他系统就会自动生成一个新变量temp并且取值均为。第二步再次选择菜单Transform==>Compute系统也再次弹出这个对话框,将数值表达式窗口中的改为然后单击中下部的“If”按钮系统弹出记录选择对话框如下:Count对话框Count对话框用于计算某个值或某些值在某个变量的取值中是否出现(好象有点拗口)比如我们想看看有哪些记录的血磷值在~之间选择菜单Transform==>Count系统弹出Count对话框如下:TargetVariable框中用于指定记录变量值是否出现的变量名在这里输入temp选中血磷值(x)将其选入Variables窗口此时“DefineValues”按钮变黑单击它系统弹出变量值定义窗口如下:左半部为变量值定义窗口可以定义某个值、系统缺失值、系统或用户定义缺失值、变量值范围、小于某值或大于某值。我们这里是第四种情况:选择Range在through两侧分别键入、然后单击已变黑的“Add”按钮“thru”就会被加入“ValuestoCount”框内。然后单击“Continue”再单击Count对话框的“OK”可以看到系统自动生成变量temp其中、号记录因血磷值介于和之间temp取值为其余的记录temp取值均为。Recode对话框Recode对话框用于从原变量值按照某种一一对应的关系生成新变量值可以将新值赋给原变量也可以生成一个新变量。例在Lisav中生成新变量temp当血磷值小于时取值为~时取值为大于时取值为。解:选择菜单Transform==>Record==>IntoDifferentVariables、OutputVariable框:选入x、OutputVariableName框:键入temp:单击Change钮、选中x>temp:单击OldandNewValues钮:、Range:Lowestthrough单选钮:键入:NewValueValue单选钮:键入:单击Add钮、Range:through单选钮:两侧分别键入、:NewValueValue单选钮:键入:单击Add钮、Range:Allothervalues单选钮:NewValueValue单选钮:键入:单击Add钮、单击Continue、单击OK步骤:CategorizeVariables对话框CategorizeVariables对话框用于将连续性变量自动按要求分成等间距的几类。其界面非常简单许多东西都是我们所熟悉的唯一特别的是右下方的numberofcategories框用于输入变量的等级数默认为比如我们希望将血磷值按大小分成个等级先将血磷值选入CreateCategories框然后将下面的改为单击OK就会看到系统产生了一个新变量nx(即numberofx之意)其取值就对应了血磷值相应的个等级(~)。重复一下具体操作步骤为:、reateCategories框:选入x、Numberofcategories框:、OKRankCases对话框例请分组计算血磷值的秩和。解:选择菜单Transform==>RankCases弹出RankCases对话框将血磷值选入Variable框分组变量选入By框单击OK即可。系统会建立一个新变量rx(即原变量名前加r表示Rank之意)其取值为x分组的秩次。解释一下RankCases对话框的其他几个零件:左下角的AssignRankto框架用于选择将秩次赋给最小值还是最大值中下部的Displaysummarytables复选框用于确定是否在结果窗口内输出结果报表RankTypes钮用于定义秩次类型有Rank(秩分数)、Savage评分(新变量值按指数分布)、Fractionalrank(新变量值是秩分数除以非缺失值观测量的权重之和)、Fractionalrank(新变量值是秩分数除以非缺失值观测量数乘)、Sumofcaseweights(新变量值是各观测量的权重之和)、Ntiles(新变量值是按所选变量的百分位数分组的组序号)默认值为Rank。单击More按钮还会有更多的设置这里就不再讲了。AutomaticRecord对话框CreateTimeSeries对话框ReplaceMissingValue对话框该对话框用于按原变量值的大小生成新变量变量值就是原值的大小次序功能和RankCases对话框重复(等价于相同值观测量当作一个记录处理的情况)。用于自动生成时间序列变量用于填充缺失值结果存入一个新变量。填充方法有:序列的均数、相邻若干点的均数、相邻若干点的中位数、线性内插、线性外延默认值为序列的均数。数据录入技巧连续多个相同值的输入如前面group变量有连续多个如果直接输入可以在第一格内输入并回车然后回到刚才的单元格并单击右键选择copy最后用拖放方式选中所有应输入的单元格单击右键并选择paste所有选中的单元格就会都被刚才拷贝的填充。将EXCEL数据直接引入SPSSExcel已经打开原数据并且数据量较少的时候可以直接用拷贝粘贴的方法将数据引入SPSS:先在EXCEL中选中所有的数据(不包括变量名)然后选择拷贝命令然后切换到SPSS最好使行列单元格成为当前单元格然后执行粘贴命令数据就会全部转入SPSS再定义相应的变量即可。 进一步整理数据文件Data菜单 进一步整理数据文件Data菜单在许多情况下我们需要先对数据进行一些整理(如分组、合并、加权等)才能将其用于最终的统计分析。这些功能基本上都集中在Data菜单项中下面我们就对这些对话框做逐一介绍。用于数据管理的菜单项SortCases对话框主要用于对数据排序。例对数据集lisav按group升序x降序的次序排列。解:选择菜单Data==>SortCases系统弹出SortCases对话框该对话框并不复杂其中比较特殊的是下方的SortOrder单选钮有升序和降序两种选择。请注意该单选钮是和上方的SortBy框一起使用的具体方法如下:确认升序单选钮被选择将Group选入SortBy框选择降序单选钮将x选入SortBy框。请注意:group和x后面分别跟着Ascending和Descending表明前者是按升序、后者按降序排列由于Group在前因此排序时以Group优先。Transepose对话框该对话框用于对数据进行行列转置可以在原数据文件中指定一个变量记录转置后的变量名。原变量名则自动保存在系统产生的名为caselbl的字符变量中。该对话框也非常简单左侧为候选变量框右上方为Variable框用于选入需要转置的变量一般应选入除名称变量外的所有其他变量如果有变量未选入则转置时会被自动丢弃右下方为NameVariable框用于指定原数据文件中记录转置后变量名的字符变量但不是必需的此时系统会将新变量自动按var、var的顺序命名。MergeFiles对话框用于合并数据文件实际上包括了两个对话框分别对应了两种合并方式:从外部数据文件中增加记录到当前数据文件中称为纵向合并用AddCases对话框完成相互合并的数据文件中应该有相同的变量。选择菜单Data==>MergeFiles==>AddCases系统首先弹出打开数据文件对话框选中需要添加的数据文件并按OK系统才弹出AddCases对话框左侧显示的是新、老数据文件中不匹配的变量名右侧显示的是已经匹配的变量名。可以用Rename按钮对不匹配变量改名(先选中)或用鼠标强行匹配(即先按Ctrl键选中匹配的两个变量再单击Pair钮)。右下方的Indicatecasesourceasvariable复选框用于定义一个新变量以区分哪些记录是后来添加的。选择停当后单击OK该操作就完成了。实际上右侧显示的是将要包括在合并后数据集中的变量如果有哪个你不需要把它弄到左侧框中即可。从外部数据文件增加变量到当前数据文件称为横向合并用AddVariable对话框完成相互合并的数据文件中应包含同样的记录。选择菜单Data==>MergeFiles==>AddVariable对话框系统同样先弹出打开数据文件对话框单击OK后弹出和前面相似的AddVariable对话框。按需选择即可。Aggregate对话框用于对数据进行分类汇总所谓分类汇总就是按指定的分类变量对观测值进行分组对每组记录的各变量值求指定的描述统计量结果可以存入新数据文件也可以替换当前数据文件。上图中各个零件的含义如下:BreakVariables框:用于选择分组变量AggregateVariables框:用于选择被汇总的变量NameLabel钮:用于定义新产生的汇总变量的名称和标签Function钮:用于定义汇总函数共有三组函数以最常用的第一组为例可选的函数有均数、同组的第一个观测值、最后一个观测值、同组记录数、标准差、最小值、和、最大值共个SaveNumberofcasesinbreakgroupasvariable复选框:用于定义一个新变量以存储同组的记录数Createnewdatafile单选钮:定义一个新文件以存储汇总的结果右侧的File钮用于具体文件名的定义默认文件名为AGGRsavReplaceworkingdatafile单选钮:用汇总的结果替换原来的数据。例计算Lisav中两组的血磷值标准差。解:该题完全可以用更简单的方法完成这里只是演示一下汇总对话框的用法。、BreakVariables框:Group、AggregateVariables框:x、Function钮:(Standarddeviation单选钮:Continue钮)、Replaceworkingdatafile单选钮:选中、OKSplitFile对话框用于将数据文件分组进行处理该对话框我们在第一章时已经使用过了这里再介绍一下各个对话框元素的用途:Analyzeallcases单选框:和下面的两个单选框为一组选中本框不拆分文件Comparegroups单选框:按所选变量拆分文件各组分析结果紧挨在一起便于相互比较Organizeoutputbygroups单选框:按所选变量拆分文件各组分析结果单独放置Groupsbasedon框:用于选择拆分数据文件的变量Sortthefilebygroupingvariables单选框:将数据按所用的拆分变量排序Fileisalreadysorted单选框:数据保持原状不按所用的拆分变量排序。SelectCases对话框很多时候我们不需要分析全部的数据而是按某种要求分析其中的一部分(比如只分析男性的身高、只对前个数据进行分析以了解大概情况)这时使用SelectCases对话框可以大大简化工作。该对话框界面如下所示:其中主要的对话框元素为:Allcases单选钮:和下面的个单选钮为一组选中它则分析所有的记录Ifconditionissatisfied单选钮:只分析满足条件的记录 If按钮:和If单选钮一起使用单击后弹出If对话框Randomsampleofcases单选钮:从原数据中按某种条件抽样 Sample按钮:和Random单选钮一起使用可以设定按百分比抽取记录或者精确设定从前若干个记录中抽取多少个记录Basedontimeorcaserange单选钮:基于记录序号来选择记录Range按钮:和Based单选钮一起使用用于输入记录序号范围Usefiltervariable单选钮:使用筛选指示变量来选择记录必需在下面选入一个筛选指示变量该变量取值为非的记录将被选中进入以后的分析Filtered单选钮:和下面的Deleted单选钮为一组表示未被选中的记录只是被隔离这些记录的记录号会被加上斜杠以示区别Deleted单选钮:未被选中的记录将被删除一般不要使用。当对数据集做出筛选后所做的筛选将在以后的分析中一直有效直到再次改变选择条件为止。同时在多数情况下系统会自动产生一个名为filter$的筛选指示变量被选中的记录该变量取值为反之则为。WeightCases对话框在默认情况下每一行就是一条记录这在多数情况下没有什么问题但有时却非常麻烦想想看如果你需要计算一个四格表卡方有例如果每一行就是一条记录你就需要输入条记录!如果希望在计算过程中利用不同的变量对数据进行加权处理就需要用到WeightCases对话框。该对话框的使用极为简单界面上有两个单选钮分别是不权重记录和用某变量权重记录如果选择后者则需要选中一个权重变量。Data菜单中的其余对话框Definedates对话框:可以自动生成时间变量。InsertVariable命令:在当前列插入新变量。Insertcases命令:在当前行插入新记录。Gotocases对话框:到达指定记录号的记录该命令在记录数极多时(条以上)非常有用。正交设计菜单项正交设计不包含在SPSSBASE模块中因此由于解密范围的问题有的盗版中不含该菜单项。在SPSS中可以直接进行正交设计OrthogonalDesign子菜单项就是专门用于完成该任务的具体做法用下面的例子说明如下:解:选择Data>OrthogonalDesign>generate弹出的就是正交设计窗口操作如下:、Factorname框:输入A单击ADD钮、确定变量A被选中单击Definevalue钮、Value列:头三行分别输入、和代表变量A的三个水平单击continue钮、Factorname框:输入B单击ADD钮、确定变量B被选中单击Definevalue钮、Value列:头两行分别输入、代表变量B的两个水平单击continue钮、单击OK例做A、B两个因素的正交设计A因素有三个水平B因素有两个水平。在第步定义完后对话框应如下图所示:在其他没有用到的选择项中各种LABELS当然适用于定义相应的各种标签的DataFiles单选框组用来定义产生的数据文件是存为制定的文件名还是直接替换当前工作文件而DefineValue对话框中的Autofit框可以自动填充从到你输入的那个数值这么多个水平的定义。这里我们直接替换当前工作文件在这个自动产生的正交设计数据集中前两个变量就是要分析的A和B各个水平已经按正交设计的要求排列好了。后面的status和card变量是系统产生的LOG变量可以不管它。现在你再建立一个结果变量输入实验结果就可以进行正交设计的分析了。附件:论统计软件中的数据录入格式附件:论统计软件中的数据录入格式统计分析是科研中的必要环节统计软件则是进行统计分析的利器。但是在计算机已逐渐普及的今天统计软件却仍让人感到几分神秘:除了大型统计软件都还没有中文版这一原因统计软件在许多小的方面也有自己的特点往往就是这些小地方就会让许多人深入宝山而空返。今天我们就来谈谈使用统计软件时一个最基本而又非常重要的问题--数据录入格式。简言之我们平时往往用表格的形式来记录数据这并无不妥。问题在于当进行统计分析时如果我们直接将数据按平时记录的格式来进行分析那就很可能不得其门而入--因为大多数统计软件对数据格式都有着特定的格式要求下面我们就举一些常见的情况来解释这一问题。单组或多组数据 平时我们多记录成"第组、第组、第组"等等如表一左侧所示。样本含量相等或不等。主要用于成组资料比较的t、F或秩和检验等。这种记录格式姑且称为统计表格格式在各种统计软件中该数据通用的分析格式如表一右侧所示我们把这种格式称为统计分析格式。统计分析格式,,,,,,,,,统计分析格式,,,,,,,,,表一统计表格格式看出来区别了吗?统计分析格式中第一列为“分组变量”指示所在的组号第二列为原始数据。现在再回到SPSS等统计软件的菜单去做onewayANOVA(成组的方差分析)知道怎么选变量了吧!配伍组数据 平时的记录格式同上面相似。主要用于配伍组资料比较或秩和检验等。见表二:表二统计表格格式统计分析格式,,,,,,,,,,,,统计分析格式中第一列为“第一分组变量”指示所在的组号第二列为“第二分组变量”指示在该组的序号第三列为原始数据单组成对数据 变量名分别为:X、Y要求样本含量相等。主要用于配对计量资料比较的t、秩和检验直线回归与相关曲线拟合等格式见表三。表三统计表格格式统计分析格式,,,两种格式没有区别但请注意如果配对资料转用方差分析来处理则相应的也要变换格式。多组成对数据主要用于协方差分析格式见表四。表四统计表格格式统计分析格式,,,,,,,,,,在统计分析格式中第一列为对子组号第二列与第三列分别为该组的对子X、Y。第二章SPSS功能介绍及其应用举例第二章SPSS功能介绍及其应用举例描述性统计分析--DescriptiveStatistics菜单均数间的比较--CompareMeans菜单一般线性模型――GeneralLinearModel菜单相关分析――Correlate菜单多元线性回归与曲线拟合――Regression菜单对数线性模型Loglinear菜单聚类分析与判别分析Classify菜单因子分析与对应分析DataReduction菜单信度分析与多维尺度分析Scale菜单非参数检验――NonparametricTests菜单Survival菜单第一节SPSS的主要分析工具Analyze菜单、描述性统计分析--DescriptiveStatistics菜单 Frequencies过程的特色是产生频数表 Descriptives过程进行一般性的统计描述 Explore过程用于对数据概况不清时的探索性分析 Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验我们常用的X检验也在其中完成。描述性统计分析是统计分析的第一步做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析但专门为该目的而设计的几个模块则集中在DescriptiveStatistics菜单中最常用的是列在最前面的四个过程:、均数间的比较--CompareMeans菜单该菜单集中了几个用于计量资料均数间比较的过程。具体有:Means过程对准备比较的各组计算描述指标进行预分析也可直接比较。OneSamplesTTest过程进行样本均数与已知总体均数的比较。IndependentSamplesTTest过程进行两样本均数差别的比较即通常所说的两组资料的t检验。PairedSamplesTTest过程进行配对资料的显著性检验即配对t检验。OneWayANOVA过程进行两组及多组样本均数的比较即成组设计的方差分析还可进行随后的两两比较。、一般线性模型――GeneralLinearModel菜单一般线性模型可不是用一章就可以说清楚的因为它包括的内容实在太多了。那么究竟我们用到的哪些分析会包含在其中呢?简而言之:凡是和方差分析粘边的都可以用他来做。比如成组设计的方差分析(即单因素方差分析)、配伍设计的方差分析(即两因素方差分析)、交叉设计的方差分析、析因设计的方差分析、重复测量的方差分析、协方差分析等等。因此能真正掌握GLM菜单的用法会使大家的统计分析能力有极大地提高。实际上一般线性模型包括的统计模型还不止这些我这里举出来的只是从用SPSS作统计分析的角度而言的一些。好了既然一般线性模型的能力如此强大那么下属的四个子菜单各自的功能是什么呢?请看:Univariate子菜单:四个菜单中的大哥大绝大部分的方法分析都在这里面进行。Multivariate子菜单:当结果变量(应变量)不止一个时可用他来分析。RepetedMeasures子菜单:顾名思义重复测量的数据就要用他来分析用前两个菜单似乎都可以分析出来结果但在许多情况下该结果是不正确的应该用重复测量的分析方法才对。VarianceComponents子菜单:用于作方差成份模型的(这个模型实在太深不是一时半会说的请的所以我在这里就干脆不讲了)。、相关分析――Correlate菜单在数据分析中经常要遇到分析两个或多个变量间关系的情况有时是希望了解某个变量对另一个变量的影响强度有时则是要了解变量间联系的密切程度前者用下一章将要讲述的回归分析来实现后者则需要用到本章所要讲述的相关分析实现。SPSS的相关分析功能被集中在Analyze菜单的Correlate子菜单中他一般包括以下三个过程:Bivariate过程此过程用于进行两个多个变量间的参数非参数相关分析如果是多个变量则给出两两相关的分析结果。这是Correlate子菜单中最为常用的一个过程实际上我们对他的使用可能占到相关分析的以上。Partial过程如果需要进行相关分析的两个变量其取值均受到其他变量的影响就可以利用偏相关分析对其他变量进行控制输出控制其他变量影响后的相关系数这种分析思想和协方差分析非常类似。Partial过程就是专门进行偏相关分析的。Distances过程调用此过程可对同一变量内部各观察单位间的数值或各个不同变量间进行距离相关分析前者可用于检测观测值的接近程度后者则常用于考察预测值对实际值的拟合优度。该过程在实际应用中用的非常少。、多元线性回归与曲线拟合――Regression菜单回归分析是处理两个及两个以上变量间线性依存关系的统计方法。回归分析就是用于说明这种依存变化的数学关系。下面三个过程是Regression菜单的子菜单是SPSS提供的用于回归分析的工具:Linear过程调用此过程可完成二元或多元的线性回归分析。在多元线性回归分析中用户还可根据需要选用不同筛选自变量的方法(如:逐步法、向前法、向后法等)。CurveEstimation过程CurveEstimation过程可以用与拟合各种各样的曲线原则上只要两个变量间存在某种可以被它所描述的数量关系就可以用该过程来分析。但这里我们要指出由于曲线拟合非常的复杂而该模块的功能十分有限因此最好采用将曲线相关关系通过变量变换的方式转化为直线回归的形式来分析或者采用其他专用的模块分析。BinaryLogistic过程所谓Logistic模型或者说Logistic回归模型就是人们想为两分类的应变量作一个回归方程出来可概率的取值在~之间回归方程的应变量取值可是在实数集中直接做会出现~范围之外的不可能结果因此就有人耍小聪明将率做了一个Logit变换这样取值区间就变成了整个实数集作出来的结果就不会有问题了从而该方法就被叫做了Logistic回归。随着模型的发展Logistic家族也变得人丁兴旺起来除了最早的两分类Logistic外还有配对Logistic模型多分类Logistic模型、随机效应的Logistic模型等。由于SPSS的能力所限对话框只能完成其中的两分类和多分类模型下面我们就介绍一下最重要和最基本的两分类模型。、对数线性模型Loglinear菜单对数线性模型是一种纯粹应用于分类变量分析的多元统计方法。它是一种比较新型的分析方法在分析高维列联表时优势尤为突出。由以下三个过程组成:General过程用于进行一般对数线性模型分析主要用于证实性研究。此时研究人员只对某些特定效应感兴趣即已经有关于模型的假设此时就可以采用一般模型来检验这一假设是否正确、充分它可以对总模型和各个参数给出详细的检验结果。对变量不分因变量自变量在分析中一视同仁最后在结果解释时才由研究人员来做出判断。Logit过程当研究人员已经有了一些线索知道因变量自变量时如果应变量为两分类就可以用这个过程来分析。ModelSelection过程分层对数线性模型。一般线性对数模型可以对每个系数及总模型给出非常丰富和详细的信息但是它要求研究人员心中已经有了一定的思路或线索或只对某些特定效应项感兴趣即已经有关于简约模型的假设。如果在探索性分析中研究人员中只是设想若干分类变量之间可能有关系但是并无明确假设也没有具体分出哪个是应变量、哪个是自变量此时比较适宜采用分层对数线性模型分析。、聚类分析与判别分析Classify菜单聚类分析和判别分析都是将记录或变量分类的方法所不同的是聚类分析是把没有分类信息的资料按相似程度归类有一定探索性的味道而类别分析则是从已知的分类情况中总规律为以后判断新观测所属类别提供依据。Classify菜单提供如下三个过程:KmeansCluster过程对记录进行快速聚类当明确所需要分出的类别数时采用快速聚类可以节省运算时间。根据经验如果样本量大于则有必要考虑是否使用快速聚类。HierarchicalCluster过程习惯上翻译成系统聚类法该过程提供了全面而强大的聚类分析能力可对记录或变量进行聚类。更为重要的是参与系统聚类分析的变量不再像快速聚类一样限于连续性变量它们可以是两分类或多分类变量。Discriminant过程提供了全面的类别分析功能所用变量可一次进入也可以使用逐步法筛选出最优类别方程。、因子分析与对应分析DataReduction菜单该方法主要目的都是浓缩数据或称数据化简即以最少的信息丢失为代价将众多的观测变量浓缩为少数几个因素从而简化问题或发现事物的内在联系。Factor过程提供因子分析主成分分析方法它们是最为常用的数据简化方法用于考察多个定量变量间的内在结构或者提取数据的主要信息。CorrespondenceAnalysis过程进行简单对应分析该方法同样以数据简化的原则力图直观的给出各两个分类变量各个类别之间的联系当各个变量的类别越多时该方法的优势就越明显。OptimalScaling过程进行最优尺度分析该方法的核心目的也是力图在低维度空间表述两个或多个变量之间的内在联系。所分析的变量以分类变量为主但也可以为连续性变量。该方法实际上包括但不仅仅限于对应分析方法。、信度分析与多维尺度分析Scale菜单在Scale菜单提供的几种统计方法都属于尺度分析的范畴它们是探索研究事物间的相似性不相似性的专用技术。具体来说这些方法和用途是:信度分析:用于评价问卷这种测量工具的稳定性或可靠性具体来说就是用问卷对同一事物进行重复测量时所得结果的一致性程度。ReliabilityAnalysis过程可以进行内在信度分析即评价问卷中各个问题是否测量的是同一个概念。多维尺度分析:用于反映多个研究事物间的相似(不相似)程度通过适当的降维方法将这种相似(不相似)程度在低维空间中用点与点之间的距离表示出来并有可能帮助识别那些影响事物间相似性的潜在因素。这种方法在市场研究中应用得非常广泛。MultidimensionalScaling过程和MultidimensionalScaling(PROXSCAL)过程都是专门用于多维尺度分析的过程。、非参数检验――NonparametricTests菜单作为二十一世纪统计理论的三大发展方向之一非参数统计是统计分析的重要组成部分。可是与之很不相称的是他针对一般性统计分析的理论发展远远不及参数检验完善因而比较完善的可供使用的方法也不多。比如多组均数间的两两比较虽然已有好几种方法可资利用但由于在理论上仍存在争议几种权威的统计软件(如SAS和SPSS)均没有提供这方面的方法。虽然这些洋统计软件没有提供两两比较的非参数方法但国产的统计软件大都是提供了的(国情不同嘛)因此建议大家:如果真的要做这方面的非参数分析不如直接用PEMS、SPLMWIN、NOSA等国产软件免得用SPSS等只能做一半。在SPSS中几乎所有的非参数分析方法都被放入了NonparametricTests菜单中具体来讲有以下几种:Chisquaretest:用卡方检验来检验变量的几个取值所占百分比是否和我们期望的比例没有统计学差异。比如我们在人群中抽取了一个样本可以用该方法来分析四种血型所占的比例是否相同(都是)或者是否符合我们所给出的一个比例(如分别为、、和我随便写的)。请注意该检验和我们一般所用的卡方不太一样我们一般左的卡方要用crosstable菜单来完成而不是这里。BinomialTest:用于检测所给的变量是否符合二项分布变量可以是两分类的也可以使连续性变量然后按你给出的分界点一刀两断。RunsTest:用于检验某变量的取值是否是围绕着某个数值随机地上下波动该数值可以是均数、中位数、众数或人为制定。一般来说如果该检验P值有统计学意义则提示有其他变量对该变量的取值有影响或该变量存在自相关。OneSampleKolmogorovSmirnovTest:采用柯尔莫诺夫斯米尔诺夫检验来分析变量是否符合某种分布可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。TwoIndependentSamplesTests:即成组设计的两样本均数比较的非参数检验。TestsforSeveralIndependentSamples:成组设计的多个样本均数比较的非参数检验此处不提供两两比较方法。TwoRelatedSamplesTests:配对设计两样本均数的非参数检验。TestsforSeveralRelatedSamples:配伍设计多个样本均数的非参数检验此处同样不提供两两比较。、生存分析Survival菜单生存分析的主要研究内容:、描述生存过程:研究人群生存状态的规律如生存时间的分布的特点计算某个时间点的生存率、生存率曲线的变动趋势等。这是人寿保险研究中的一项重要内容。、生存过程的影响因素分析:比较不同亚人群的生存状况进行两组或多组生存率的比较以了解哪些因素会影响目标人群的生存过程这是生存分析方法最重要的研究内容在临床医学中应用得非常广泛。SPSS提供了四个过程:L

用户评论(0)

0/200

精彩专题

上传我的资料

每篇奖励 +1积分

资料评分:

/113
1下载券 下载 加入VIP, 送下载券

意见
反馈

立即扫码关注

爱问共享资料微信公众号

返回
顶部

举报
资料