下载
加入VIP
  • 专属下载特权
  • 现金文档折扣购买
  • VIP免费专区
  • 千万文档免费下载

上传资料

关闭

关闭

关闭

封号提示

内容

首页 spss统计软件讲义

spss统计软件讲义.doc

spss统计软件讲义

幸福在你我心里
2017-09-21 0人阅读 举报 0 0 暂无简介

简介:本文档为《spss统计软件讲义doc》,可适用于高等教育领域

spss统计软件讲义SPSS统计软件应用第一章概述第二章数据文件的建立及整理第三章数据输入和输出第四章利用SPSS进行统计描述第五章利用SPSS进行T统计检验第六章利用SPSS进行Χ统计检验第七章均数间的比较第八章征服一般线性模型第九章因子分析第十章相关分析第十一章多元线性回归与曲线拟合第十二章分类资料的回归分析第十三章分类分析第十四章非参数检验第十五章Survival菜单详解()第十六章Survival菜单详解()第十七章利用SPSS进行量表分析第十八章统计绘图功能详解第十九章描述性统计分析详第一章概述(一)SPSS软件SPSS是“社会科学统计软件包”(StatisticalPackagefortheSocialScience)的简称是一种集成化的计算机数据处理应用软件。年美国斯坦福大学HNie等三位大学生开发了最早的SPSS统计软件并于年在芝加哥成立了SPSS公司已有余年的成长历史全球约有万家产品用户广泛分布于通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研、教育等多个领域和行业。年代末Microsoft发表Windows后SPSS迅速向Windows移植使软件更加直观易用。SPSS是世界上公认的三大数据分析软件之一(SAS、SPSS和SYSTAT)。至年间SPSS公司陆续购并了SYSTAT公司、BMDP公司等由原来单一统计产品开发转向企业、教育科研及政府机构提供全面信息统计决策支持服务。伴随SPSS服务领域的扩大和深度的增加SPSS公司已决定将其全称更改为StatisticalProductandServicesolutions(统计产品与服务解决方案)。目前世界上最著名的数据分析软件是SAS和SPSS。SAS由于是为专业统计分析人员设计的具有功能强大灵活多样的特点为专业人士所喜爱。而SPSS是为广大的非专业人士设计它操作简便好学易懂简单实用因而很受非专业人士的青睐。此外比起SAS软件来SPSS主要针对着社会科学研究领域开发因而更适合应用于教育科学研究是国外教育科研人员必备的科研工具。年中国高教学会首次推广了这种软件从此成为国内教育科研人员最常用的工具。(二)SPSS软件的特点集数据录入、资料编辑、数据管理、统计分析、报表制作、图形绘制为一体。从理论上说只要计算机硬盘和内存足够大SPSS可以处理任意大小的数据文件无论文件中包含多少个变量也不论数据中包s框内的全部变量均进入回归模型。,Forward:Conditional:基于条件参数估计的向前法。,Forward:LR:基于偏最大似然估计的向前法。,Forward:Wald:基于Wald统计量的向前法。,Backward:Conditional:基于条件参数估计的后退法。,Backward:LR:基于偏最大似然估计的后退法。,Backward:Wald:基于Wald统计量的后退法。【Strata】框定义分层因素,将生存时间按分层因素分别进行Cox回归。【Categorical】选项用于告诉系统Covariates框内的变量中哪些是分类变量或字符型变量。系统默认字符型变量为分类变量数字型变量为连续型变量。选入自变量后categorical钮被激活。按categorical钮进入确定分类变量的对话框。见图。图确定分类变量对话框左边的Covariates框中列出了刚刚被选取的自变量将分类变量选入CategoricalCovariates框中。此时ChangeContrast框被激活请你选择比较方法即计算参数ORβi的方法。当选入分类变量后ChangeContrast框被激活此时可选择比较方法。SPSS提供下面几种比较方法。,Indicator:指示对比。用于指定某一分类变量的基线即参照水平。这样计算出来的参数ORβi是以该变量的第一个或最后一个水平为基准水平(取决于下面的referencecategory中你选择的是last还是first)。在这里SPSS自动创建亚变量对照水平在对比分类矩阵中用行代表。在这里我再多说两句如本例中的肿瘤类型若规定鳞癌为小细胞癌为腺癌为其它癌为。若选indicator及last,则以其它癌为参照计算出来的OR及βi是以其它癌为基准即其它癌的OR为其他计算出来的OR值是与其它癌相比的结果。,Simple:差别对比。可计算该分类变量的各水平与参照水平相比的OR值。参照水平自己当然就不用跟自己相比了。对于本例来说Simple与Indicator选项是一样的前提是下面的ReferenceCategory中你所选择的同是last(或first)。,Difference:差别对比。分类变量欲比较水平与其前面的各水平平均值进行比较当然也不包括第一水平。与Helmert法相反因此也叫反Helmert法。如水平与、水平的平均值相比下同。,Helmert:赫尔默特对比。分类变量欲比较水平与其后面各水平平均值进行比较当然不包括最后一个水平。,Repeated:重复对比。分类变量的各水平与其前面相邻的水平相比较(第一水平除外)。,Polynomial:多项式对比。仅用于数字型的分类变量。无效假设是假设各水平是等距离的(可以是线性的关系也可以是立方、四次方的关系)。例如年龄每增加岁死亡风险的增加值是一样的但实际情况常常与此相反如在岁与岁年龄段年龄都增加岁所增加的死亡风险肯定是不一样的具体情况需根据各人的研究课题专业而定。,Deviation:离差对比。除了所规定的参照水平外其余每个水平均与总体水平相比。,Referencecategory:如果你选择了Deviation,Simple,或Indicator三个选项就必须选择First或Last作为参照水平。完成上述选择后击change钮确认选择。你若对上面写的一段不感兴趣的话可跳过去直接用系统默认的选项。【Plots】选项图Cox回归统计图对话框Survival:累积生存函数曲线。Hazard:累积风险函数曲线。Logminuslog:对数累积生存函数乘以后再取对数。Oneminussurvival:生存函数被减后的曲线。,ChangeValue:系统默认用各变量的均数进行作图但对字符型变量如癌症类型取均值则没有实际意义。若用分类变量的其它水平进行作图则选定该变量此时ChangeValue钮被激活按Value钮在其右边的框内输入你所想要用于作图的值。击Change。,SeparateLinefor:输入分类变量的名称此时可以用分类变量的不同水平进行作图对于本例则可作出不同癌症的曲线。此分类变量必须包括在前面的自变量框中。【Save】存为新变量图Cox回归存为新变量对话框,Survival:生存函数。Function:累积生存函数估计值。Standarderror:累积生存函数估计值的标准误。Logminuslog:对数累积生存函数乘以后再取对数。,Diagnostics:回归诊断。HazardfunctionCoxSnell:残差。Partialresidual:偏残差。Dfbeta(s):剔除某一观察单位后的回归系数变化量。X*Beta:线性预测得分。【Options】选项击Options按钮弹出选项对话框。图Cox回归选项对话框,ModelStatistics:模型统计量。CIforexp(ß):相对危险度的可信区间。系统默认可信区间。Correlationofestimates:回归系数的相关阵。,Displaymodel:输出模型方式。,Ateachstep:输出每一步的模型。系统默认。,Atlaststep:输出最后一步的模型。,ProbabilityforStepwise:模型保留变量的显著性水平。Entry:系统默认选入变量为P。Removal:系统默认剔除变量为P,。MaximumIterations:最大迭代次数系统默认次。Displaybaselinefunction:输出风险基准函数以及基于各协变量均值的生存函数与风险函数。操作如下:Analyze==>Survival==>CoxregressionTime框:选入survivaltimeStatus框:选入status击defineevents钮,在singlevalue框右边的空格中输入Covariate框:选入x,x,x,x,xCategorical列表框:选入xPlots列表框:,PlotType:选survival,SeparateLinefor:选入xOption列表框:,ModelStatistics:选CIforexp(ß):输出回归系数ß的可信区间。选Correlationofestimate:输出自变量的相关矩阵。单击OK钮结果解释:CoxRegression上表输出总例数、删失例数、失访例数。输出各种癌症的频数及系统所赋的亚变量x、x、x值当癌症类型是鳞癌时x取值为其它亚变量取值为依此类推。Block:BeginningBlock模型拟合迭代过程可不管它。Block:Method=Enter描述模型参数(常数项除外)是否全为本例χ=自由度υ=P=。说明β不全为。I对回归方程各参数的估计B即ß值SE标准误WaldWald卡方df,自由度sig自由度exp(B)OR值CiforEXP(B)OR值的可信区间。自变量的相关矩阵。本例X与X的相关系数是其它依此类推。输出自变量的均数及其在不同模式下的取值因XXXX四个变量没有生成亚变量故在此输出它们的均数。输出在各自变量的均值水平时的累积生存函数曲线。输出各种癌症的累积生存函数曲线。二、CoxwTimeDepCov过程CoxwTimeDepCov过程应用于:在建立Cox回归方程时风险比例可能会随时间变化而变化即有些危险因素作用的强度随时间而变化这样的资料是不适合前面所讲的一般的Cox回归模型的。此时就应改为时间依存协变量模型也称为非比例风险模型。你可把所怀疑的那个协变量及时间变量,定义成时间依存协变量(多个协变量时就必须用编程来做了)常用的方法是把它们简单地进行相乘然后通过对时间依存协变量系数的显著性检验来判断比例风险是否合理。用到CoxwTimeDepCov过程的另一种情况是:有些变量虽然在不同的时间点取不同的值但与时间并非系统地相关在这种情况下需用逻辑表达式定义一个分段时间依存协变量逻辑表达式取值时为真取时为假。用一系列的逻辑表达式你可以从一系列观测记录中建立自己的时间依存变量。例如:对病人血压每周观察一次共观察次(变量名为BP至BP)。时间依存协变量可以这样定义:(T<)*BP(T>=T<)*BP(T>=T<)*BP(T>=T<)*BP(表示“逻辑与”即一般编程语言中的“AND”)。请注意括号中的值只能有一个取而其它的值只能取也就是说这个函数意味着当时间小于一周时(此时第一个括号内取值为而其它括号内取值为)使用BP的值大于一周而小于两周时使用BP的值依次类推。下面请大家跟我一起看例子。因我到处找不到例子所以我自己编了一个(因此我在此仅列出例)。例名高血压病人共测了次血压计算高血压对生存时间的影响。编号BPBPBPBP生存时间状态界面说明图构造时间依存变量对话框【ExpressionforTcov】框:左边的框中列出了数据库中的所有变量以供构造时间依存变量用其中的T是系统提供的时间变量。可以用右边的各个键和SPSS提供的各种函数构造时间依存变量也可以在右边的ExpressionforTcov框中直接输入时间依存变量的表达式。时间依存变量的表的是构造完以后击Model钮出现下面的对话框。图定义模型对话框对话框左边是数据库中出现的变量名。在【Time】中输入生存时间变量Time【Status】中输入状态变量status【Covariates】中输入时间依存变量TCOV。因本例无其它协变量如有别的不随时间变化的协变量一并输入Covariates框中。对话框中的其他选项均在Cox模型中介绍过这里就不再罗嗦了。结果解释CoxRegression上表输出总例数、删失例数、失访例数。Block:BeginningBlock模型拟合迭代过程可不管它。Block:Method=Enter整个方程检验无统计学意义χ=υ=P=。输出方程中协变量的系数、标准误、Wald卡方值、自由度、P值、OR值。输出协变量均数。说明:对于分段时间依存协变量有缺失值的病例将不能被分析。因此你必须保证所有病例每个时间点均有协变量值。虽然这些值在分析中用不到但它们能有效地防止这些病例被丢掉。例如以上面规定的时间依存协变量为例假使一个病例在第二周时终检但它的BP及BP值仍必须有可以取或其它值这个无关紧要因为它们在统计分析中并不用到。那位又说了既然寿命表法和KaplanMeier法都可以计算累积生存函数和风险函数那么它们之间有什么差别呢,区别就在于寿命表法是生存时间分为许多时间段进行分析计算的适用于大样本资料而KaplanMeier法是计算每一终止事件发生时的生存率适用于小样本资料。第十七章利用SPSS进行量表分析本节将介绍利用SPSS软件对量表进行处理分析。在获取原始数据后我们利用SPSS对量表可以作出三种分析即项目分析、因素分析和信度分析。项目分析目的是找出未达显著水准的题项并把它删除。它是通过将获得的原始数据求出量表中题项的临界比率值CR值来作出判断。通常量表的制作是要经过专家的设计与审查因此题项一般均具有鉴别度能够鉴别不同受试者的反应程度。故往往在量表处理中可以省去这一步。因素分析目的是在多变量系统中把多个很难解释而彼此有关的变量转化成少数有概念化意义而彼此独立性大的因素从而分析多个因素的关系。在具体应用时大多数采用“主成份因素分析”法它是因素分析中最常使用的方法。信度分析目的是对量表的可靠性与有效性进行检验。如果一个量表的信度愈高代表量表愈稳定。也就表示受试者在不同时间测量得分的一致性因而又称“稳定系数”。根据不同专家的观点量表的信度系数如果在以上表示量表的信度甚佳。但是对于可接受的最小信度系数值是多少许多专家的看法也不一致有些专家定为以上也有的专家定位以上。通常认为如果研究者编制的量表的信度过低如在以下应以重新编制较为适宜。在本节中主要介绍利用SPSS软件对量表进行因素分析。一、因素分析基本原理因素分析是通过求出量表的“结构效度”来对量表中因素关系作出判断。在多变量关系中变量间线性组合对表现或解释每个层面变异数非常有用主成份分析主要目的即在此。变量的第一个线性组合可以解释最大的变异量排除前述层次第二个线性组合可以解释次大的变异量最后一个成份所能解释总变异量的部份会较少。主成份数据分析中以较少成份解释原始变量变异量较大部份。成份变异量通常用“特征值”表示有时也称“特性本质”或“潜在本质”。因素分析是一种潜在结构分析法其模式理论中假定每个指针(外在变量或称题项)均由两部分所构成一为“共同因素”、一为“唯一因素”。共同因素的数目会比指针数(原始变量数)还少而每个指针或原始变量皆有一个唯一因素亦即一份量表共有n个题项数则会有n个唯一因素。唯一因素性质有两个假定:()所有的唯一因素彼此间没有相关()所有的唯一因素与所有的共同因素间也没有相关。至于所有共同因素间彼此的关系可能有相关或可能皆没有相关。在直交转轴状态下所有的共同因素间彼此没有相关在斜交转轴情况下所有的共同因素间彼此就有相关。因素分析最常用的理论模式如下:其中()为第i个变量的标准化分数。()Fm为共同因素。()m为所有变量共同因素的数目。()为变量的唯一因素()为因素负荷量。因素分析的理想情况在于个别因素负荷量不是很大就是很小这样每个变量才能与较少的共同因素产生密切关联如果想要以最少的共同因素数来解释变量间的关系程度则彼此间或与共同因素间就不能有关联存在。所谓的因素负荷量是因素结构中原始变量与因素分析时抽取出共同因素的相关。在因素分析中有两个重要指针:一为“共同性”二为“特征值”。所谓共同性就是每个变量在每个共同因素之负荷量的平方总和(一横列中所有因素负荷量的平方和)也就是个别变量可以被共同因素解释的变异量百分比这个值是个别变量与共同因素间多元相关的平方。从共同性的大小可以判断这个原始变量与共同因素间之关系程度。而各变量的唯一因素大小就是减掉该变量共同性的值。(在主成份分析中有多少个原始变量便有多少个成份所以共同性会等于没有唯一因素)。所谓特征值是每个变量在某一共同因素之因素负荷量的平方总和(一直行所有因素负荷量的平方和)。在因素分析的共同因素抽取中特征值最大的共同因素会最先被抽取其次是次大者最后抽取得共同因素的特征值最小通常会接近(在主成份分析中有几个题项便有几个成份因而特征值的总和刚好等于变量的总数)。将每个共同因素的特征值除以总题数为此共同因素可以解释的变异量因素分析的目的之一即在因素结构的简单化希望以最少的共同因素能对总变异量作最大的解释因而抽取得因素愈少愈好但抽取因素的累积解释的变异量愈大愈好。我们通过一个例子说明如何利用SPSS软件对量表进行分析。二、利用SPSS对量表进行因素分析【例】现要对远程学习者对教育技术资源的了解和使用情况进行了解设计一个里克特量表如表所示。将该量表发放给人回答假设回收后的原始数据如表所示。操作步骤:录入数据定义变量“A”、“A”、“A”、“A”、“A”、“A”、“A”、“A”、“A”并按照表输入数据如图所示。因素分析()选择“AnalyzeDataReductionFactor„”命令弹出“FactorAnalyze”对话框将变量“A”到“A”选入“Variables”框中,如图所示。()设置描述性统计量单击图对话框中的“Descriptives„”按钮弹出“FactorAnalyze:Descriptives”(因素分析:描述性统计量)对话框如图所示。“Statistics”(统计量)对话框A“Univariatedescriptives”(单变量描述性统计量):显示每一题项的平均数、标准差。B“Initialsolution”(未转轴之统计量):显示因素分析未转轴前之共同性、特征值、变异数百分比及累积百分比。“CorrelationMatric”(相关矩阵)选项框A“Coefficients”(系数):显示题项的相关矩阵B“Significancelevels”(显著水准):求出前述相关矩阵地显著水准。C“Determinant”(行列式):求出前述相关矩阵地行列式值。D“KMOandBartlett’stestofsphericity”(KMO与Bartlett的球形检定):显示KMO抽样适当性参数与Bartlett’s的球形检定。E“Inverse”(倒数模式):求出相关矩阵的反矩阵。F“Reproduced”(重制的):显示重制相关矩阵上三角形矩阵代表残差值而主对角线及下三角形代表相关系数。G“Antiimage”(反映像):求出反映像的共变量及相关矩阵。在本例中选择“Initialsolution”与“KMOandBartlett’stestofsphericity”二项单击“Continue”按钮确定。()设置对因素的抽取选项单击图对话框中的“Extraction„”按钮弹出“FactorAnalyze:Extraction”(因素分析:抽取)对话框如图所示。“Method”(方法)选项框:下拉式选项内有其中抽取因素的方法:A“Principalcomponents”法:主成份分析法抽取因素此为SPSS默认方法。B“Unweightedleastsquares”法:未加权最小平方法。C“Generalizedleastsquare”法:一般化最小平方法。D“Maximumlikelihood”法:最大概似法。E“Principalaxisfactoring”法:主轴法。F“Alphafactoring”法:α因素抽取法。G“Imagefactoring”法:映像因素抽取法。“Analyze”(分析)选项框A“Correlationmatrix”(相关矩阵):以相关矩阵来抽取因素B“Covariancematrix”(共变异数矩阵):以共变量矩阵来抽取因素。“Display”(显示)选项框A“Unrotatedfactorsolution”(未旋转因子解):显示未转轴时因素负荷量、特征值及共同性。B“Screeplot”(陡坡图):显示陡坡图。“Extract”(抽取)选项框A“Eigenvaluesover”(特征值):后面的空格默认为表示因素抽取时只抽取特征值大于者使用者可随意输入至变量总数之间的值。B“Numberoffactors”(因子个数):选取此项时后面的空格内输入限定的因素个数。在本例中设置因素抽取方法为“Principalcomponents”选取“Correlationmatrix”、“Unrotatedfactorsolution”、“Principalcomponents”选项在抽取因素时限定在特征值大于者即SPSS的默认选项。单击“Continue”按钮确定。()设置因素转轴单击图对话框中的“Rotation„”按钮弹出“FactorAnalyze:Rotation”(因素分析:旋转)对话框如图所示。“Method”(方法)选项方框内六种因素转轴方法:A“None”:不需要转轴B“Varimax”:最大变异法属正交转轴法之一。C“Quartimax”:四次方最大值法属正交转轴法之一。D“Equamax”:相等最大值法属正交转轴法之一。E“DirectOblimin”:直接斜交转轴法属斜交转轴法之一。F“Promax”:Promax转轴法属斜交转轴法之一。“Display”(显示)选项框:A“Rotatedsolution”(转轴后的解):显示转轴后的相关信息正交转轴显示因素组型矩阵及因素转换矩阵斜交转轴则显示因素组型、因素结构矩阵与因素相关矩阵。B“Loadingplots”(因子负荷量):绘出因素的散步图。“MaximumIterationsforConvergence”:转轴时之行的叠代最多次数后面默认得数字为表示算法之行转轴时执行步骤的次数上限。在本例中选择“Varimax”、“Rotatedsolution”二项。研究者要选择“Rotatedsolution”选项才能显示转轴后的相关信息。单击“Continue”按钮确定。()设置因素分数单击图对话框中的“Scores„”按钮弹出“FactorAnalyze:FactorScores”(因素分析:因素分数)对话框如图所示。“Saveasvariable”(因素存储变量)框勾选时可将新建立的因素分数存储至数据文件中并产生新的变量名称(默认为fact、fact、fact、fact等)。在“Method”框中表示计算因素分数的方法有三种:A“Regression”:使用回归法。B“Bartlett”:使用Bartlette法C“AndersonRobin”:使用AndersonRobin法。“Displayfactorcoefficientmatrix”(显示因素分数系数矩阵)选项勾选时可显示因数分数系数矩阵。在本例中取默认值。单击“Continue”按钮确定。()设置因素分析的选项单击图对话框中的“Options„”按钮弹出“FactorAnalyze:Options”(因素分析:选项)对话框如图所示。“MissingValues”(遗漏值)选项框:遗漏值的处理方式。A“Excludecaseslistwise”(完全排除遗漏值):观察值在所有变量中没有遗漏值者才加以分析。B“Excludecasespairwise”(成对方式排除):在成对相关分析中出现遗漏值得观察值舍弃。C“Replacewithmean”(用平均数置换):以变量平均值取代遗漏值。“CoefficientDisplayFormat”(系数显示格式)选项框:因素负荷量出现的格式。A“Sortedbysize”(依据因素负荷量排序):根据每一因素层面的因素负荷量的大小排序。B“Suppressabsolutevalueslessthan”(绝对值舍弃的下限):因素负荷量小于后面数字者不被显示默认的值为。在本例中选择“Excludecaseslistwise”、“Sortedbysize”二项并勾选“Suppressabsolutevalueslessthan”其后空格内的数字不用修改默认为。如果研究者要呈现所有因素负荷量就不用选取“Suppressabsolutevalueslessthan”选项。在例题中为了让研究者明白此项的意义才勾选了此项正式的研究中应呈现题项完整的因素负荷量较为适宜。单击“Continue”按钮确定。设置完所有的选项后单击“OK”按钮输出结果。结果分析()KMO及Bartlett’检验如图所示显示KMO及Bartlett’检验结果。KMO是KaiserMeyerOlkin的取样适当性量数当KMO值愈大时表示变量间的共同因素愈多愈适合进行因素分析根据专家Kaiser()观点如果KMO的值小于时较不宜进行因素分析此处的KMO值为表示适合因素分析。此外从Bartlett’s球形检验的值为自由度为达到显著代表母群体的相关矩阵间有共同因素存在适合进行因素分析。()共同性如图所示显示因素间的共同性结果。共同性中显示抽取方法威主成份分析法最右边一栏为题项的共同性。()陡坡图如图所示显示因素的陡坡图。从陡坡图中可以看出从第三个因素以后坡线甚为平坦因而以保留个因素较为适宜。()整体解释的变异数未转轴前的数据如图所示显示的是未转轴前整体解释的变异数。从图中可以看出左边个成份因素的特征值总和等于。解释变异量为特征值除以题项数如第一个特征值得解释变异量为,。将左边个成份的特征值大于的列于右边。特征值大于的共有三个这也是因素分析时所抽出的共同因素数。由于特征值是由大到小排列所以第一个共同因素的解释变异量通常是最大者其次是第二个再是第三个。转轴后的特征值为、、解释变异量为,、,、,累积的解释变异量为,、,、,。转轴后的特征值不同于转轴前的特征值。()未转轴的因素矩阵如图所示显示的是未转轴的因素矩阵。从图中可以看出有个因素被抽取并且因素负荷量小鱼的未被显示。()转轴后的因素矩阵如图所示显示了转轴后的因素矩阵。从图中可以看出A、A、A、A、A为因素一A、A、A为因素二A、A为因素三。题项在其所属的因素层面顺序是按照因素负荷量的高低排列。()因素转换矩阵如图所示显示了因素转换矩阵。它是在“FactorAnalysis:Rotation”对话框中“Display”选项框中选择“RotatedSolution”选项框以后生成该表。结果说明根据因素的特征值和旋转后的因素矩阵采用了主成份分析法抽取出个因素作为共同因素并使用因素转轴方法中的Varimax最大变异法转轴后去掉了因素负荷量小于的的系数按照从大到小的顺序进行排列使得变量与因素的关系豁然明了。对其作如表所示的因素分析摘要表。转轴后的特征值为、、解释变异量为,、,、,累积的解释变异量为,、,、,。转轴后的特征值不同于转轴前的特征值。第十八章统计绘图功能详解在常用的统计软件中SAS绘制的统计图不太美观而SPSS绘制的统计图较为美观可以满足大多数情况下的要求STATA绘制的统计图形最为精美但由于它采用命令行方式操作美观的图形需要添加大量选项普通人不易掌握而SPLUS、MATHLAB等偏数理统计的软件虽然绘图能力也非常强但由于自身的定位问题并不为大多数人所熟悉。因此在各种统计软件中以SPSS制作的统计图应用最为广泛。EXECL的统计绘图功能非常的强我们还有必要学习SPSS的绘图功能吗,这个问题我的看法是:EXCEL由于它的纯中文界面和简单而强大的绘图功能使得可以用它来直接绘制各种简单的统计图但是EXCEL可以直接绘制的统计图种类有限象误差条图、自回归图等它就无能为力即是它支持的线图、条图等如果过于复杂如叠式条图、累计条图等也无法作出而这些图在统计中是经常会碰到的此时就只有采用统计软件来绘制SPSS就是其中的佼佼者。一、常用统计图在SPSS版中除了生存分析所用的生存曲线图被整合到ANALYZE菜单中外其他的统计绘图功能均放置在graph菜单中。该菜单具体分为以下几部分:,Gallery:相当于一个自学向导将统计绘图功能做了简单的介绍初学者可以通过它对SPSS的绘图能力有一个大致的了解。,Interactive:交互式统计图这是SPSS版新增的内容。,Map:统计地图这是SPSS版新增的内容。市面上所能见到的SPSSD版由于执照不全并不能安装统计地图模块。,下方的其他菜单项是我们最为常用的普通统计图具体来说有:条图散点图线图直方图饼图面积图箱式图正态QQ图正态PP图质量控制图Pareto图自回归曲线图高低图交互相关图序列图频谱图误差线图其中后面几种图形用于时间序列分析。我们的讲解将这些常规统计图为主对交互式统计图和统计地图只举例介绍就不再全面讲述了。我们所用的数据集为SPSS自带的anxietysav本章的大多数例子都将围绕该数据集展开。操作界面介绍(条图)条图的通用界面由于不同图形的绘图对话框有相当强的共性下面我们通过一个简单的例子来看看绘图菜单的大致界面是怎么样的通过这个例子大家可以举一反三。例:在数据集anxietysav中分不同的subject对变量score值(之和)绘制条图。选择graphs==>bar后系统首先会弹出一个简单的导航对话框如下所示:绘制简单条图,单式条图,绘制复式条图绘制堆积条图,分段条图,定义统计图中数据的表达类型:条图反映了同一变量若干条记录的分组汇总条图反映了不同变量的汇总条图反映了个体观察值在该对话框中SPSS将条图进行了大致的分类对话框的上半部分用于选择条图类型下半部分的DatainChartare单选框组用于定义条图中数据的表达类型。这里根据我们所需绘制条图的类型应该选择简单条图在表达类型中则应选择"Summariesforgroupsofcases"。选好后单击DEFINE钮系统开启正式的条图定义对话框如下:对话框左侧为通用的侯选变量列表框右侧的对话框元素依次解释如下:【BarsRepresent单选框组】用于定义条图中直条所代表的含义可以是样本例数、样本数所占的百分比、累计样本例数、累计样本数所占的百分比或其余汇总函数在例中我们要对变量score的值绘图因此选择最后一项"Othersummaryfunction"系统开启summaryfunction对话框如下所示:该对话框中列出了更多的统计汇总函数可以满足绝大多数情况的需要。具体有:,上部:包括大多数常用统计汇总函数如均数、标准差、中位数、方差、众数、最大、最小值、样本例数、变量值之和、累计变量值。,中部:可对各记录按大小进行筛选如上侧百分之多少或者只选择小于某个数值的记录。具体的数值在value框中输入。,下部:可按数值大小值选择取值在某个范围内的记录具体的范围在low和high框中输入。注意上面的一些函数是和前面重复的如样本例数。此外对话框最下侧还有一个Valuesaregroupedmidpoints复选框当选中medianofvalues或percentile单选框时该框变为可选选中则表明数据为频数表格式所输入的数值为组中值。根据我们的目的这里选择sumofvalues单选框单击continue后系统回到上一个对话框。【CategoryAxis框】用于选择所需的分类变量此处必选。这里根据要求将subject选入可以见到此时OK已经变黑可用了。【Template框】用于选择绘制条图的模板一般较少用。【Titles钮】用于输入统计图的标题和脚注最多可以输入两行主标题一行副标题两行脚注。【Options钮】弹出Options对话框用于定义相关的选项有:oConfidenceInterval框输入需要计算的均数差值可信区间范围默认为。如果是和总体均数为相比则此处计算的就是样本所在总体均数的可信区间。oMissingValues单选框组定义分析中对缺失值的处理方法可以是具体分析用到的变量有缺失值才去除该记录(Excludescasesanalysisbyanalysis)或只要相关变量有缺失值则在所有分析中均将该记录去除(Excludescaseslistwise)。默认为前者以充分利用数据。现在我们已经完成了绘制该图所需的工作单击OK系统绘出统计图如下:至于DatainChartAre中的另两种情况Summariesofseparatevariables和Valuesofindividualcases其对话框界面极为简单可以说是一目了然这里不再多讲只指出以下几点:,在Summariesofseparatevariables的对话框中可以用Changesummary钮更改汇总函数。,在Valuesofindividualcases的对话框中下方categorylabels的选择并不影响做出直条的多少只会影响X轴表示的内容默认是记录号。复式条图与分段条图的界面复式条图与分段条图的界面并非全新的东西只是在前面的简单界面上增加了一些元素让我们再通过一个例子来看看:例:在数据集anxietysav中分不同的subject对变量score值(之和)绘制条图并且按变量trial的不同取值堆积(分段):由于要按变量trial的不同取值分段因此在导航对话框中就不能选simple而应根据目的选择stacked单击define后系统开启的条图定义对话框和我们前面所用的略有不同具体来说在CategoryAxis框附近不同现在CategoryAxis框下面多了些东西如下所示:选择stacks时的情况选择clusters时的情况显然当需要做复式条图时将所需的分类变量选入stacks框中即可做分段条图的情况也与此类似。以例为例其操作步骤如下:Graphs==>barClustered:选中Summarizesforgroupsofvariables单选框:选中单击DefineBarsrepesent框:选入score。Othersummaryfunction单选框:选中Variable框:选入subjectChangesummary钮:单击Sumofvalues单选框:单击单击continue钮CategoryAxis框:选入subjectDefinestacksby框:选入trial单击OK绘出的条图如下所示:但是在Valuesofindividualcases的对话框中情况有些不同原先Barsrepersent框只能选入一个变量做复式条图和分段条图时该框中可以选入多个变量了其他的内容不变。其他常用统计图散点图散点图是各种统计图中比较简单的一种共分为simple、matrix(以矩阵的形式显示多个变量间两两的散点图)、overlay(将多个变量间两两的散点图同时做在一张图上)和D(将X、Y、Z三个变量间的相关散点图做在一个立体空间中)四种其中需要解释的比较特殊的内容有:,Setmarksby框:选入一个标记变量根据该变量取值的不同对同一个散点图中的各点标以不同的颜色(或形状)例如在数据cars中我们以horse和weight做图如果用orgion的大小来做marks则两次做出的图如下:没有mark变量时的情况用orgion做mark变量时的情况,Labelcases框:当编辑图形在图形选项中选择显示labels时图形默认显示记录号如果在这里选择了label变量则显示该变量的取值。,做出的D图形可以在编辑时进行三维旋转从多个角度进行观察。线图线图实际上和条图是一回事可以认为它就是条图的变形条图是用直条的高低表示多少而线图是用点的高低来表示然后又用直线将各点连接而成。饼图饼图的做法简直太简单了不值一提~面积图面积图的做法是和线图、饼图类似的比如堆积面积图是将各个指标值相加而成和分段式条图非常类似。直方图直方图用于观察某个变量的分布情况如果选择了displaynormalcurve复选框则会同时做出一条当前变量理想状况的正态分布曲线来和该曲线相比你就可以知道变量的实际分布究竟差了多远。其他PP图和QQ图都是用来观察变量是否服从正态分布的质量控制图则用来观察个体值是否有超过正常值范围的情况出现箱式图的作用和它类似只是换了一种表达方式其余的几种图几乎都是用与时间序列模型的。常用统计图编辑方法详解该部分内容请参见节:图片编辑方法详解。二、交互式统计图交互式统计图是SPSS版新增的绘图类型包括了交互式条图、线图、面积图、饼图、散点图、箱式图、误差限图和和直方图共七种类型那么这种新的统计图类型和普通的统计图相比有什么优越性或者说它的主要卖点交互性都体现在哪里呢,在我看来“交互式”这三个字主要体现在以下几个方面:,对话框的交互。它的对话框全部采用拖方式操作并且每一个元素的可操作性都大大强于普通对话框以前需要两至三层对话框才能完成的工作现在在一层对话框中就可以完成了。,图形内容的交互。在技术上普通统计图存储的是图形元素因此编辑时只能就图形元素的特征如颜色、线型等加以修改而现在的交互式统计图完全不同它存储的是原始数据或者绘图用的中间结果(如均数、标准差等)因此当图形绘制完毕后仍能对图形进行彻底更改如加入锌的变量(在散点图中加入标示变量甚至二维变三维)、删除某一部分数据、甚至改变所会图形的基本类型如将条图改绘为线图等只要所需信息相同随你如何转换~不但如此由于这个存储特点现在我们还可以绘出以前无法直接得到的图形如将一个数据透视表的内容用图形来表示~哈哈统计表我们要拿你来做图~这就是做出的交互式统计图把它转成三维怎么样,,增强的图形编辑能力。同样由于它的存储特点现在交互式统计图的图形编辑能力达到了有恃无恐的地步~几乎任何东西都可以拿来改也可以往里添加许多辅助线如下面所示的一样:朴素的美削尖脑袋的模样墙上长满了爬山虎太阳照在红墙内外反客为主的蓝飘带我没有放倒~请注意,最后一幅图是在三维实时旋转时截取的(三维实时旋转也是交互式统计图新增的功能之一)因为如果我不这样做它可能会那样一直旋转下去我这样也算是挽救了他吧~三、统计地图统计地图是SPSS的新增功能如果用时髦的说法就应该是“地球物理信息系统”不过我喜欢用朴素的名称。该功能可以将收集到的数据和地图相联系从而绘出统计地图来。该功能共分为区域值统计地图、渐近符号统计地图、点密度统计地图、个体值统计地图、分类计数条图统计地图、饼图统计地图和多主题统计地图七种。但是如同我在SPSS抢鲜报道中提到过的一样该地图集关于中国的部分简直就是一塌糊涂所以对国内用户来说它更多的使用来玩而不是工作。统计地图在操作上和交互式统计图完全一致实际上它就是一类特殊的交互式统计图。它所用的数据集应该和所选的地图相对应否则会给出错误信息并停止做图。这是用SPSS附带的亚州数据集做出的亚洲国家人口点密度图:SPSS在根目录下的MapData目录中放有许多绘制统计地图用的数据集有兴趣的朋友可以自己做几个图试试。第十九章描述性统计分析详描述性统计分析是统计分析的第一步做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析但专门为该目的而设计的几个模块则集中在DescriptiveStatistics菜单中最常用的是列在最前面的四个过程:Frequencies过程的特色是产生频数表Descriptives过程则进行一般性的统计描述Explore过程用于对数据概况不清时的探索性分析Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验我们常用的X检验也在其中完成。一、Frequencies过程频数分布表是描述性统计中最常用的方法之一Frequencies过程就是专门为产生频数表而设计的。它不仅可以产生详细的频数表还可以按要求给出某百分位点的数值以及常用的条图圆图等统计图。和国内常用的频数表不同几乎所有统计软件给出的均是详细频数表即并不按某种要求确定组段数和组距而是按照数值精确列表。如果想用Frequencies过程得到我们所熟悉的频数表请先用第二章学过的Recode过程产生一个新变量来代表所需的各组段。界面说明Frequencies对话框的界面如下所示:该界面在SPSS中实在太普通了无须多言重点介绍一下各部分的功能如下:【Displayfrequencytables复选框】确定是否在结果中输出频数表。【Statistics钮】单击后弹出Statistics对话框如下用于定义需要计算的其他描述统计量。现将各部分解释如下:oPercentileValues复选框组定义需要输出的百分位数可计算四分位数(Quartiles)、每隔指定百分位输出当前百分位数(Cutpointsforequalgroups)、或直接指定某个百分位数(Percentiles)如直接指定输出P和P。oCentraltendency复选框组用于定义描述集中趋势的一组指标:均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)。oDispersion复选框组用于定义描述离散趋势的一组指标:标准差(Stddeviation)、方差(Variance)、全距(Range)、最小值(Minimum)、最大值(Maximum)、标准误(SEmean)。oDistribution复选框组用于定义描述分布特征的两个指标:偏度系数(Skewness)和峰度系数(Kurtosis)。oValuesaregroupmidpoints复选框当你输出的数据是分组频数数据并且具体数值是组中值时选中该复选框以通知SPSS免得它犯错误。众数(Mode)指所有数值中出现频率最高的一个值在国内用的非常少。【Charts钮】弹出Charts对话框用于设定所做的统计图。oCharttype单选钮组定义统计图类型有四种选择:无、条图(Barchart)、圆图(Piechart)、直方图Histogram)其中直方图还可以选择是否加上正态曲线(Withnormalcurve)。oChartValues单选钮组定义是按照频数还是按百分比做图(即影响纵坐标刻度)。【Format钮】弹出Format对话框用于定义输出频数表的格式不过用处不大一般不管。oOrderby单选钮组定义频数表的排列次序有四个选项:Ascendingvalues为根据数值大小按升序从小到大作频数分布Descendingvalues为根据数值大小按降序从大到小作频数分布Ascendingcounts为根据频数多少按升序从少到多作频数分布Descendingcounts为根据频数多少按降序从多到少作频数分布。oMultipleVariables单选钮组如果选择了两个以上变量做频数表则Comparevariables可以将他们的结果在同一个频数表过程输出结果中显示便于互相比较Organizeoutputbyvariables则将结果在不同的频数表过程输出结果中显示。oSuppressTablesmorethan复选框当频数表的分组数大于下面设定数值时禁止它在结果中输出这样可以避免产生巨型表格。分析实例例某地例健康男子血清总胆固醇值测定结果如下请绘制频数表、直方图计算均数、标准差、变异系数CV、中位数M、p和p(卫统第三版p题)。解:为节省篇幅这里只给出精确频数表的做法假设数据已经输好变量名为X具体解法如下:Analyze==>DescriptiveStatistics==>FrequenciesVariables框:选入X单击Statistics钮:选中Mean、Stddeviation、Median复选框单击Percentiles:输入:单击Add:输入:单击Add:单击Continue钮单击Charts钮:选中Barcharts单击Continue钮单击OK得出结果后手工计算出CV。上面做出的直方图分组太多需要进一步编辑。结果解释上题除直方图外的的输出结果如下:Frequencies最上方为表格名称左上方为分析变量名可见样本量N为例缺失值例均数Mean=中位数Median=标准差STD=P=P=。系统对变量x作频数分布表(此处只列出了开头部分)Vaild右侧为原始值Frequency为频数Percent为各组频数占总例数的百分比(包括缺失记录在内)Validpercent为各组频数占总例数的有效百分比CumPercent为各组频数占总例数的累积百分比。二、Descriptives过程Descriptives过程是连续资料统计描述应用最多的一个过程他可对变量进行描述性统计分析计算并列出一系列相应的统计指标。这和其他过程相比并无不同。但该过程还有个特殊功能就是可将原始数据转换成标准正态评分值并以变量的形式存入数据库供以后分析。界面说明【Savestandardizedvaluesasvariables复选框】确定是否将原始数据的标准正态评分存为新变量。【Options钮】弹出Options对话框大部分内容均在前面Frequences过程的Statistics对话框中见过只有最下方的DisplayOrder单选钮组是新的可以选择为变量列表顺序、字母顺序、均数升序或均数降序。结果解释下面是一个典型的Descriptives过程结果统计表:一望可知这里的大部分内容都在上一节见过因此就不再多解释了。讲了两个过程也许大家已经发现了:结果中的统计专业单词多数在对话框中就已经出现因此我们以后会详细解释对话框的内容结果中相同的单词不再重复解释。三、Explore过程Explore过程可对变量进行更为深入详尽的描述性统计分析主要用于对资料的性质、分布特点等完全不清楚时故又称之为探索性分析。它在一般描述性统计指标的基础上增加有关数据其他特征的文字与图形描述如枝叶图、箱图等显得更加详细、全面有助于用户制定继续分析的方案。界面说明【Display单选钮组】用于选择输出结果中是否包含统计描述、统计图或两者均包括。【DependentList框】用于选入需要分析的变量。【FactorList框】如果想让所分析的变量按某种因素取值分组分析则在这里选入分组变量。【Labelcasesby框】选择一个变量他的取值将作为每条记录的标签。最典型的情况是使用记录ID号的变量。【Statistics钮】弹出Statistics对话框用于选择所需要的描述统计量。有如下选项:oDescriptives复选框:输出均数、中位数、众数、修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均数可信区间。oMestimators复选框:作中心趋势的粗略最大似然确定输出四个不同权重的最大似然确定数。oOutliers复选框:输出五个最大值与五个最小值。oPercentiles复选框:输出第、、、、、、位数。【Plot钮】弹出Plot对话框用于选择所需要的统计图。有如下选项:oBoxplots单选框组:确定箱式图的绘制方式可以是按组别分组绘制(Factorlevelstogether)也可以不分组一起绘制(Depentendstogether)或者不绘制(None)。oDescriptive复选框组:可以选择绘制茎叶图(Stemandleaf)和直方图(Histogram)。oNormalityplotswithtest复选框:绘制正态分布图并进行变量是否符合正态分布的检验。oSpreadvsLevelwithLeveneTest单选框组:当选择了分组变量时绘制spreadversuslevel图(我还没有找到他的中文名字该叫什么)设置绘图时变量的转换方式并进行组间方差齐性检验。【Options钮】用于选择对缺失值的处理方式可以是不分析有任一缺失值的记录、不分析计算某统计量时有缺失值的记录或报告缺失值。结果解释以例的数据为例按默认方式下的选择Explore过程的输出如下:Explore首先是例行的处理记录缺失值情况报告,可见例均为有效值。上表详细列出了常用的描述统计量,如果有标准误也会列出,如偏度和峰度系数,。XXStemandLeafPlotFrequencyStemLeafExtremes(>=)Stemwidth:Eachleaf:case(s)以上是茎叶图整数位为茎小数位为叶。这样可以非常直观的看出数据的分布范围及形态在国外非常流行。以上是箱式图中间的黑粗线为均数红框为四分位间距的范围上下两个细线为最大、最小值

用户评价(0)

关闭

新课改视野下建构高中语文教学实验成果报告(32KB)

抱歉,积分不足下载失败,请稍后再试!

提示

试读已结束,如需要继续阅读或者下载,敬请购买!

文档小程序码

使用微信“扫一扫”扫码寻找文档

1

打开微信

2

扫描小程序码

3

发布寻找信息

4

等待寻找结果

我知道了
评分:

/334

spss统计软件讲义

VIP

在线
客服

免费
邮箱

爱问共享资料服务号

扫描关注领取更多福利