下载

2下载券

加入VIP
  • 专属下载特权
  • 现金文档折扣购买
  • VIP免费专区
  • 千万文档免费下载

上传资料

关闭

关闭

关闭

封号提示

内容

首页 SPSS教材第六章 描述性统计分析

SPSS教材第六章 描述性统计分析.doc

SPSS教材第六章 描述性统计分析

张子彧2011
2018-09-07 0人阅读 举报 0 0 暂无简介

简介:本文档为《SPSS教材第六章 描述性统计分析doc》,可适用于IT/计算机领域

第六章:描述性统计分析--DescriptiveStatistics菜单详解(医学统计之星:张文彤)上次更新日期: Frequencies过程 界面说明 分析实例 结果解释 Descriptives过程 界面说明 结果解释 Explore过程 界面说明 结果解释 Crosstabs过程 界面说明 分析实例 结果解释 描述性统计分析是统计分析的第一步做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析但专门为该目的而设计的几个模块则集中在DescriptiveStatistics菜单中最常用的是列在最前面的四个过程:Frequencies过程的特色是产生频数表Descriptives过程则进行一般性的统计描述Explore过程用于对数据概况不清时的探索性分析Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验我们常用的X检验也在其中完成。本章讲述的四个过程在及以前版本中被放置在Summarize菜单中。§Frequencies过程频数分布表是描述性统计中最常用的方法之一Frequencies过程就是专门为产生频数表而设计的。它不仅可以产生详细的频数表还可以按要求给出某百分位点的数值以及常用的条图圆图等统计图。和国内常用的频数表不同几乎所有统计软件给出的均是详细频数表即并不按某种要求确定组段数和组距而是按照数值精确列表。如果想用Frequencies过程得到我们所熟悉的频数表请先用第二章学过的Recode过程产生一个新变量来代表所需的各组段。 界面说明Frequencies对话框的界面如下所示:该界面在SPSS中实在太普通了无须多言重点介绍一下各部分的功能如下:【Displayfrequencytables复选框】确定是否在结果中输出频数表。【Statistics钮】单击后弹出Statistics对话框如下用于定义需要计算的其他描述统计量。现将各部分解释如下:·PercentileValues复选框组定义需要输出的百分位数可计算四分位数(Quartiles)、每隔指定百分位输出当前百分位数(Cutpointsfor  equalgroups)、或直接指定某个百分位数(Percentiles)如直接指定输出P和P。·Centraltendency复选框组用于定义描述集中趋势的一组指标:均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)。·Dispersion复选框组用于定义描述离散趋势的一组指标:标准差(Stddeviation)、方差(Variance)、全距(Range)、最小值(Minimum)、最大值(Maximum)、标准误(SEmean)。·Distribution复选框组用于定义描述分布特征的两个指标:偏度系数(Skewness)和峰度系数(Kurtosis)。·Valuesaregroupmidpoints复选框当你输出的数据是分组频数数据并且具体数值是组中值时选中该复选框以通知SPSS免得它犯错误。众数(Mode)指所有数值中出现频率最高的一个值在国内用的非常少。【Charts钮】弹出Charts对话框用于设定所做的统计图。·Charttype单选钮组定义统计图类型有四种选择:无、条图(Barchart)、圆图(Piechart)、直方图Histogram)其中直方图还可以选择是否加上正态曲线(Withnormalcurve)。·ChartValues单选钮组定义是按照频数还是按百分比做图(即影响纵坐标刻度)。【Format钮】弹出Format对话框用于定义输出频数表的格式不过用处不大一般不管。·Orderby单选钮组定义频数表的排列次序有四个选项:Ascendingvalues为根据数值大小按升序从小到大作频数分布Descendingvalues为根据数值大小按降序从大到小作频数分布Ascendingcounts为根据频数多少按升序从少到多作频数分布Descendingcounts为根据频数多少按降序从多到少作频数分布。·MultipleVariables单选钮组如果选择了两个以上变量做频数表则Comparevariables可以将他们的结果在同一个频数表过程输出结果中显示便于互相比较Organizeoutputbyvariables则将结果在不同的频数表过程输出结果中显示。·SuppressTablesmorethan复选框当频数表的分组数大于下面设定数值时禁止它在结果中输出这样可以避免产生巨型表格。分析实例例某地例健康男子血清总胆固醇值测定结果如下请绘制频数表、直方图计算均数、标准差、变异系数CV、中位数M、p和p(卫统第三版p题)。解:为节省篇幅这里只给出精确频数表的做法假设数据已经输好变量名为X具体解法如下:Analyze==>DescriptiveStatistics==>FrequenciesVariables框:选入X单击Statistics钮: 选中Mean、Stddeviation、Median复选框 单击Percentiles:输入:单击Add:输入:单击Add: 单击Continue钮单击Charts钮: 选中Barcharts 单击Continue钮单击OK得出结果后手工计算出CV。上面做出的直方图分组太多需要进一步编辑。 结果解释上题除直方图外的的输出结果如下:Frequencies最上方为表格名称左上方为分析变量名可见样本量N为例缺失值例均数Mean=中位数Median=标准差STD=P=P=。系统对变量x作频数分布表(此处只列出了开头部分)Vaild右侧为原始值Frequency为频数Percent为各组频数占总例数的百分比(包括缺失记录在内)Validpercent为各组频数占总例数的有效百分比CumPercent为各组频数占总例数的累积百分比。§Descriptives过程Descriptives过程是连续资料统计描述应用最多的一个过程他可对变量进行描述性统计分析计算并列出一系列相应的统计指标。这和其他过程相比并无不同。但该过程还有个特殊功能就是可将原始数据转换成标准正态评分值并以变量的形式存入数据库供以后分析。界面说明【Savestandardizedvaluesasvariables复选框】确定是否将原始数据的标准正态评分存为新变量。【Options钮】弹出Options对话框大部分内容均在前面Frequences过程的Statistics对话框中见过只有最下方的DisplayOrder单选钮组是新的可以选择为变量列表顺序、字母顺序、均数升序或均数降序。 结果解释下面是一个典型的Descriptives过程结果统计表:一望可知这里的大部分内容都在上一节见过因此就不再多解释了。讲了两个过程也许大家已经发现了:结果中的统计专业单词多数在对话框中就已经出现因此我们以后会详细解释对话框的内容结果中相同的单词不再重复解释。§Explore过程Explore过程可对变量进行更为深入详尽的描述性统计分析主要用于对资料的性质、分布特点等完全不清楚时故又称之为探索性分析。它在一般描述性统计指标的基础上增加有关数据其他特征的文字与图形描述如枝叶图、箱图等显得更加详细、全面有助于用户制定继续分析的方案。 界面说明【Display单选钮组】用于选择输出结果中是否包含统计描述、统计图或两者均包括。【DependentList框】用于选入需要分析的变量。【FactorList框】如果想让所分析的变量按某种因素取值分组分析则在这里选入分组变量。【Labelcasesby框】选择一个变量他的取值将作为每条记录的标签。最典型的情况是使用记录ID号的变量。【Statistics钮】弹出Statistics对话框用于选择所需要的描述统计量。有如下选项:·Descriptives复选框:输出均数、中位数、众数、修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均数可信区间。·Mestimators复选框:作中心趋势的粗略最大似然确定输出四个不同权重的最大似然确定数。·Outliers复选框:输出五个最大值与五个最小值。·Percentiles复选框:输出第、、、、、、位数。【Plot钮】弹出Plot对话框用于选择所需要的统计图。有如下选项:·Boxplots单选框组:确定箱式图的绘制方式可以是按组别分组绘制(Factorlevelstogether)也可以不分组一起绘制(Depentendstogether)或者不绘制(None)。·Descriptive复选框组:可以选择绘制茎叶图(Stemandleaf)和直方图(Histogram)。·Normalityplotswithtest复选框:绘制正态分布图并进行变量是否符合正态分布的检验。·SpreadvsLevelwithLeveneTest单选框组:当选择了分组变量时绘制spreadversuslevel图(我还没有找到他的中文名字该叫什么)设置绘图时变量的转换方式并进行组间方差齐性检验。【Options钮】用于选择对缺失值的处理方式可以是不分析有任一缺失值的记录、不分析计算某统计量时有缺失值的记录或报告缺失值。 结果解释以例的数据为例按默认方式下的选择Explore过程的输出如下:Explore首先是例行的处理记录缺失值情况报告可见例均为有效值。上表详细列出了常用的描述统计量如果有标准误也会列出(如偏度和峰度系数)。XXStemandLeafPlotFrequencyStemLeaf                                                                                                             Extremes   (>=) Stemwidth:    Eachleaf:      case(s)以上是茎叶图整数位为茎小数位为叶。这样可以非常直观的看出数据的分布范围及形态在国外非常流行。以上是箱式图中间的黑粗线为均数红框为四分位间距的范围上下两个细线为最大、最小值。§Crosstabs过程Crosstabs过程用于对计数资料和有序分类资料进行统计描述和简单的统计推断。在分析时可以产生二维至n维列联表并计算相应的百分数指标。统计推断则包括了我们常用的X检验、Kappa值分层X(XMH)。如果安装了相应模块还可计算n维列联表的确切概率(Fisher'sExactTest)值。Crosstabs过程不能产生一维频数表(单变量频数表)该功能由Frequencies过程实现。 界面说明【Rows框】用于选择行*列表中的行变量。【Columns框】用于选择行*列表中的列变量。【Layer框】Layer指的是层对话框中的许多设置都可以分层设定在同一层中的变量使用相同的设置而不同层中的变量分别使用各自层的设置。如果要让不同的变量做不同的分析则将其选入Layer框并用Previous和Next钮设为不同层。Layer在这里用的比较少在多元回归中我们将进行详细的解释。【Displayclusteredbarcharts复选框】显示重叠条图。【Suppresstable复选框】禁止在结果中输出行*列表。【Exact钮】针对*以上的行*列表设定计算确切概率的方法可以是不计算(Asymptoticonly)、蒙特卡罗模拟(MonteCarlo)或确切计算(Exact)。蒙特卡罗模拟默认进行次模拟给出可信区间确切计算默认计算时间限制在分钟内。这些默认值均可更改。如果你在安装SPSS时没有安装EXACT模块则此处对话框中不会出现Exact钮。在*及以上的行*列表中确切概率的精确计算是极为漫长的过程。我曾经用SAS在P机上计算过一个格表的确切概率整整跑了两个小时后SAS告诉我说机器内存不足:(。SPSS的计算速度比SAS要慢许多倍因此一般只需要选用蒙特卡罗模拟算出概率值的可信区间就行了精度完全可以满足需要而速度极快(次模拟一般耗时在秒左右)。【Statistics钮】弹出Statistics对话框用于定义所需计算的统计量。·Chisquare复选框:计算X值。·Correlations复选框:计算行、列两变量的Pearson相关系数和Spearman等级相关系数。·Norminal复选框组:选择是否输出反映分类资料相关性的指标很少使用。aContingencycoefficient复选框:即列联系数其值界于~之间bPhiandCramer'sV复选框:这两者也是基于X值的Phi在四格表X检验中界于~之间在R*C表X检验中界于~之间Cramer'sV则界于~之间cLambda复选框:在自变量预测中用于反映比例缩减误差其值为时表明自变量预测应变量好为时表明自变量预测应变量差dUncertaintycoefficient复选框:不确定系数以熵为标准的比例缩减误差其值接近时表明后一变量的信息很大程度来自前一变量其值接近时表明后一变量的信息与前一变量无关。·Ordinal复选框组:选择是否输出反映有序分类资料相关性的指标很少使用。aGamma复选框:界于~之间所有观察实际数集中于左上角和右下角时其值为bSomers'd复选框:为独立变量上不存在同分的偶对中同序对子数超过异序对子数的比例cKendall'staub复选框:界于~之间dKendall'stauc复选框:界于~之间·Eta复选框:计算Eta值其平方值可认为是应变量受不同因素影响所致方差的比例·Kappa复选框:计算Kappa值即内部一致性系数·Risk复选框:计算比数比OR值·McNemanr复选框:进行McNemanr检验(一种非参检验)·Cochran'sandMantelHaenszelstatistics复选框:计算XMH统计量(分层X也有写为XCMH的)可在下方输出H假设的OR值默认为。【Cells钮】弹出Cells对话框用于定义列联表单元格中需要计算的指标:·Counts复选框组:是否输出实际观察数(Observed)和理论数(Expected)·Percentages复选框组:是否输出行百分数(Row)、列百分数(Column)以及合计百分数(Total)·Residuals复选框组:选择残差的显示方式可以是实际数与理论数的差值(Unstandardized)、标化后的差值(Standardized实际数与理论数的差值除理论数)或者由标准误确立的单元格残差(AdjStandardized)【Format钮】用于选择行变量是升序还是降序排列。 分析实例例某医生用国产呋喃硝胺治疗十二指肠溃疡以甲氰咪胍作对照组问两种方法治疗效果有无差别(医统第二版P例)?处理愈合未愈合合计呋喃硝胺甲氰咪胍合计解:由于此处给出的直接是频数表因此在建立数据集时可以直接输入三个变量――行变量、列变量和指示每个格子中频数的变量然后用WeightCases对话框指定频数变量最后调用Crosstabs过程进行X检验。假设三个变量分别名为R、C和W则数据集结构和命令如下:R CW        Data==>WeightCasesWeightCasesby单选框:选中FreqencyVariable:选入W单击OK钮Analyze==>DescriptiveStatistics==>CrosstabsRows框:选入RColumns框:CStatistics钮:Chisquare复选框:选中:单击Continue钮单击OK钮 结果解释上题的结果如下:Crosstabs首先是处理记录缺失值情况报告可见例均为有效值。上面为列出的四格表实际使用时可以在其中加入变量值标签使看起来更清楚。上表给出了一堆检验结果从左到右为:检验统计量值(Value)、自由度(df)、双侧近似概率(AsympSigsided)、双侧精确概率(ExactSigsided)、单侧精确概率(ExactSigsided)从上到下为:Pearson卡方(PearsonChiSquare即常用的卡方检验)、连续性校正的卡方值(ContinuityCorrection)、对数似然比方法计算的卡方(LikelihoodRatio)、Fisher's确切概率法(Fisher'sExactTest)、线性相关的卡方值(LinearbyLinearAssociation)、有效记录数(NofValidCases)。另外ContinuityCorrection和Pearson卡方值处分别标注有a和b表格下方为相应的注解:a只为*表计算。b个格子的期望频数小于最小的期望频数为。因此这里无须校正直接采用第一行的检验结果即X=P=。如何选用上面众多的统计结果令许多初学者头痛实际上我们只需要在未校正卡方、校正卡方和确切概率法三种方法之间选择即可其余的对我们而言用处不大可以视而不见。回第五章回教程首页到第七章 

用户评价(0)

关闭

新课改视野下建构高中语文教学实验成果报告(32KB)

抱歉,积分不足下载失败,请稍后再试!

提示

试读已结束,如需要继续阅读或者下载,敬请购买!

文档小程序码

使用微信“扫一扫”扫码寻找文档

1

打开微信

2

扫描小程序码

3

发布寻找信息

4

等待寻找结果

我知道了
评分:

/14

SPSS教材第六章 描述性统计分析

VIP

在线
客服

免费
邮箱

爱问共享资料服务号

扫描关注领取更多福利