下载
加入VIP
  • 专属下载特权
  • 现金文档折扣购买
  • VIP免费专区
  • 千万文档免费下载

上传资料

关闭

关闭

关闭

封号提示

内容

首页 SPSS基本统计分析2

SPSS基本统计分析2.ppt

SPSS基本统计分析2

xiaogezi
2013-10-27 0人阅读 举报 0 0 暂无简介

简介:本文档为《SPSS基本统计分析2ppt》,可适用于高等教育领域

第五章第五章SPSS基本统计分析描述性统计分析SPSS的主要分析工具Analyze菜单SPSS的主要分析工具Analyze菜单报告--Rports描述性统计分析--DescriptiveStatistics菜单表格--Tables均数间的比较--CompareMeans菜单一般线性模型――GeneralLinearModel菜单相关分析――Correlate菜单多元线性回归与曲线拟合――Regression菜单对数线性模型Loglinear菜单聚类分析与判别分析Classify菜单因子分析与对应分析DataReduction菜单信度分析与多维尺度分析Scale菜单非参数检验――NonparametricTests菜单时间序列分析--Timeseries描述性统计分析是统计分析的第一步做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析但专门为该目的而设计的几个模块则集中在DescriptiveStatistics菜单中包括:Frequencies:频数分析过程特色是产生频数表(主要针对分类变量)Descriptives:数据描述过程进行一般性的统计描述(主要针对数值型变量)Explore:数据探察过程用于对数据概况不清时的探索性分析Crosstabs:多维频数分布交叉表分析(列联表分析)Ratiostatistics:比率分析频数分析频数分析频数分析的目的和基本任务、目的:基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况对把握数据的分布特征是非常有用的。、基本任务()频数分析的第一个基本任务是编制频数分布表。频数(Frequency):即变量值落在某个区间(或某个类别)中的次数百分比(Percent):即各频数占总样本数的百分比有效百分比(ValidPercent):即各频数占有效样本数的百分比这里有效样本数=总样本-缺失样本数累计百分比(CumulativePercent):即各百分比逐级累加起来的结果。最终取值为。()频数分析的第二个任务是绘制统计图条形图(BarChart):用宽度相同的条形的高度或长短来表示频数分布变化的图形适用于定序和定类变量的分析。饼图(PieChart):用圆形及圆内扇形的面积来表示频数百分比变化的图形以利于研究事物内在结构组成等问题。直方图(Histograms):用矩形的面积来表示频数分布变化的图形适用于定距型变量的分析。注:变量的计量尺度:a定类(CategoryScale):只能计次b定序(OrdinalScale):计次、排序c定距(IntervalScale):计次、排序、加减d定比(RatioScale):计次、排序、加减、乘除频数分析的基本操作()选择菜单AnalyzeDescriptiveStatisticsFrequencies。()将若干频数分析变量选择到Variable(s)框中。()单击Chart按钮选择绘制统计图形在ChartValues框中选择条形图中纵坐标(或饼图中扇形面积)的含义其中Frequencies表示频数Percentages表示百分比。输出统计量对话框输出百分位数:输出四分位数显示、、的百分位数将数据平均分为所设定的相等等份可输入的整数如键入则输出第、、百分位数自定义百分位数可输入的整数。离散趋势分布形态栏集中趋势栏输出统计量对话框SPSS频数分析的扩展功能、计算分位数(PercentileValues)分位数是变量在不同分位点上的取值。分位点在-之间。一般使用较多的是四分位点(Quartiles)即将所有数据按升序排序后平均等分成四份各分位点依次是%%%。于是四分位数便分别是%%%点所对应的变量值。此外还有八分位数、十六分位数等。SPSS提供了计算任意分位数的功能用户可以指定将数据等分为n份(Cutpointsfornequalgroups)。还可以直接指定分位点(Percentile)。、计算其他基本描述统计量SPSS频数分析还能够计算其他基本统计量其中包括描述集中趋势(CentralTendency)的基本统计量、描述离散程度(Dispersion)的基本统计量、描述分布形态(Distribution)的基本统计量等。Format对话框控制频数表输出的分类数量。默认为多变量框中可设定多变量表格输出的格式设置频数表输出的格式选择频数表中排列顺序按变量升序排列此为默认按变量降序排列按变量各种取值发生的频数的升序排列按变量各种取值发生的频数的降序排列、频数分布表格式(Format)的定义()调整频数分布表中数据的输出顺序(Orderby):频数分布表中的内容的输出顺序可以按变量值的升序输出(Ascendingvalues)按变量值的降序输出(Descendingvalues)按频数的升序输出(Ascendingcounts)按频数的降序输出(Descendingcounts)。()multiplevariables单选框组:如果选择了两个以上变量作频数表则comparevariables可以将所有变量的结果在同一个频数表过程输出结果中显示便于互相比较organizeoutputbyvariables则将结果在不同的频数表过程输出结果中显示每一个变量一张表。()压缩频数分布表(Suppresstableswithmorethanncategories)如果变量取值的个数或取值区间的个数太多频数分布表将很庞大此时可以压缩它。SPSS默认如果变量取值的个数或取值区间的个数大于则不输出相应的频数分布表。应用中可以修改该值。频数分析的应用举例利用居民储蓄调查数据进行频数分析有以下两个分析目标:目标一:分析储户的户口和职业的基本情况。目标二:分析储户一次存款金额的分布并对城镇储户和农村储户进行比较。分析:目标一:分析储户的户口和职业的基本情况()户口和职业两个变量都是定类型变量可通过基本频数分析实现。()职业变量的取值(分类)数目较多为使频数分布表更一目了然应对内容的输出顺序进行调整单击Format按钮选择Descendingcounts按频数的降序输出。()单击Chart按钮指定输出户口变量的饼图和职业变量的条形图。目标二:分析储户一次存款金额的分布并对城镇储户和农村储户进行比较。、分析思路:()由于存(取)款金额数据为定距型变量直接采用频数分析不利于对其分布形态的把握因此考虑依据第三章中的数据分组功能对数据分组后再编制频数分布表。()进行数据拆分并分别计算城镇储户和农村储户的一次存(取)款金额的四分位数并通过四分位数比较两者分布上的差异。、分析过程:()数据分组将存(取)款金额重新分成五组五组区间分布为少于元-元-元-元元以上。分组后进行频数分析并绘制带正态曲线的直方图。()利用SPSS的频数分析计算所有样本的存(取)款金额的四分位数然后按照户口类型对数据进行拆分(Splitfile)并重新计算分位数分别得到城镇户口和农村户口的存(取)款金额的四分位数。计算基本描述统计量计算基本描述统计量基本描述统计量常见的基本描述统计量有三大类:刻画集中趋势的统计量刻画离中趋势的统计量刻画分布形态的统计量、刻画集中趋势的描述统计量集中趋势是指一组数据向某一中心值靠拢的倾向。()均值(Mean):即算术平均数是反映某变量所有取值的集中趋势或平均水平的指标。如某企业职工的平均月收入。其计算公式为:()中位数(Median):即一组数据按升序排序后处于中间位置上的数据值。如评价社会的老龄化程度时可用中位数。()众数(Mode):即一组数据中出现次数最多的数据值。如生产鞋的厂商在制定各种型号鞋的生产计划时应该运用众数。()均值标准误差(StandardErrorofMean):描述样本均值与总体均值之间的平均差异程度的统计量。其计算公式为:其中:为总体标准差n为样本单位数、刻画离散程度的描述统计量离散程度是指一组数据远离其“中心值”的程度。如果数据都紧密地集中在“中心值”的周围数据的离散程度较小说明这个“中心值”对数据的代表性好相反如果数据仅是比较松散地分布在“中心值”的周围数据的离散程度较大则此“中心值”说明数据特征是不具有代表性的。常见的刻画离散程度的描述统计量如下:()全距(Range):也称极差是数据的最大值(Maximum)与最小值(Minimum)之间的绝对离差。()方差(Variance):也是表示变量取值离散程度的统计量是各变量值与算数平均数离差平方的算术平均数。其计算公式为:()标准差(StandardDeviation:StdDev):表示变量取值距离均值的平均离散程度的统计量。其计算公式为:标准差值越大说明变量值之间的差异越大距均值这个“中心值”的离散趋势越大。、刻画分布形态的描述统计量数据的分布形态主要指数据分布是否对称偏斜程度如何分布陡峭程度等。刻画分布形态的统计量主要有两种:()偏度(Skewness):描述变量取值分布形态对称性的统计量。其计算公式为:当分布为对称分布时正负总偏差相等偏度值等于当分布为不对称分布时正负总偏差不相等偏度值大于或小于。偏度值大于表示正偏差值大称为正偏或右偏偏度值小于表示负偏差值大称为负偏或左偏。偏度绝对值越大表示数据分布形态的偏斜程度越大。()峰度(Kurtosis):描述变量取值分布形态陡峭程度的统计量。其计算公式为:当数据分布与标准正态分布的陡峭程度相同时峰度值等于峰度大于表示数据的分布比标准正态分布更陡峭为尖峰分布峰度小于表示数据的分布比标准正态分布平缓为平峰分布。计算基本描述统计量的操作()选择菜单Analyze-DescriptiveStatistics-Descriptives,出现如下窗口:()将需计算的数值型变量选择到Variable(s)框中。()单击Option按钮指定计算哪些基本描述统计量出现如下窗口:Options对话框基本统计量当Variables框中有多个变量时此框确定其输出顺序:按Variables框中的排列顺序输出按各变量的字母顺序输出按均值的升序排列按均值的降序排列分布在上面窗口中用户可以指定分析多变量时结果输出的次序(DisplayOrder)。其中Variablelist表示按变量在数据窗口中从左到右的次序输出Alphabetic表示按字母顺序输出AscendingMeans表示按均值升序输出DescendingMeans表示按均值降序输出。至此SPSS便自动计算所选变量的基本描述统计量并显示到输出窗口中。计算基本描述统计量的应用举例利用居民储蓄调查数据对一次存款金额变量计算基本描述统计量。有以下分析目标:计算存款金额的基本描述统计量并分别对城镇储户和农村储户进行比较分析:首先按照户口对数据进行拆分(Splitfile)然后计算存(取)款金额的基本描述统计量。分析储户一次存款的数量是否存在不均衡现象。分析:假设储户一次存款金额服从正态分布跟据原则异常值通常为个标准差范围之外的值可通过对数据的标准化处理来判断。标准化的数学定义为:通过标准化可以得到一系列新变量值通常称为标准化值或z分数。计算标准化值可以通过对话框中的复选框savestandardizedvaluesasvariables来实现并将结果保存在一个新变量中。该变量的命名规则为字母z原变量名的前七个字符。接下来可对新变量进行排序并浏览其标准化值的取值情况可以发现z分数值得绝对数大于的储户是存在的。对其分组为三组:za<<za<,za>并进行频数分析可以发现存款金额存在一定的不均衡现象。交叉分组下的频数分析交叉分组下的频数分析目的和基本任务、目的:交叉分组下的频数分析又称列联表分析。通过前面的频数分析能够掌握单个变量的数据分布情况在实际分析中不仅要了解单个变量的分布特征还要分析多个变量不同取值下的分布进而分析变量之间的相互影响和关系。对于这种涉及两个或两个以上变量分布情况的研究通常要利用交叉分组下的频数分析来完成。、基本任务:()根据收集到的样本数据产生二维或多维交叉列联表()在交叉列联表的基础上对两两变量间是否存在一定的相关性进行分析。交叉列联表的主要内容编制交叉列联表是交叉分组下频数分析的第一个任务。交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表。例:职工基本情况数据按职称和文化程度编制的二维交叉列联表(见下页表):上表中的职称变量称为行变量(Row)文化程度称为列变量(Column)。行标题和列标题分别是两个变量的变量值(或分组值)。表格中间是观测频数(ObservedCounts)和各种百分比。名职工中本科、专科、高中、初中的人数分别为构成的分布称为交叉列联表的列边缘分布高级工程师、工程师、助理工程师、无技术职称的人数分别为构成的分布称为交叉列联表的行边缘分布个本科学历职工中各职称的人数分别是等这些频数构成的分布称为条件分布即在行变量(列变量)取值条件下的列变量(行变量)的分布。在交叉列联表中除了频数外还引进了各种百分比。例如表中第一行中的%%%分别是高级工程师人中各学历人数所占的比例称为行百分比(Rowpercentage)一行的百分比总和为%表中第一列的%%%分别是本科学历人中各职称人数所占的比例称为列百分比(Columnpercentage)一列的列百分比总和为%表中的%%%等分别是总人数人中各交叉组中人数所占的百分比称为总百分比(Totalpercentage)所有格子中的总百分比之和也为%。交叉分组下的频数分析的基本操作()菜单选项Analyze-DescriptiveStatistics-Crosstabs出现窗口如下:该框中的变量作为分布表中的行变量和列变量。该框中的变量作为控制变量决定频数分布表中的层可有多个控制变量。显示每一组中各变量的分类条形图。只输出统计量不输出多维列联表。Crosstabs对话框()如果进行二维列联表分析则将行变量选择到Row(s)框中将列变量选择到Column(s)框中。如果Row(s)和Column(s)框中有多个变量名SPSS会将行列变量一一配对后产生多张二维列联表。如果进行三维或多维列联表分析则将其他变量作为控制变量选到Layer框中。多控制变量间可以是同层次的也可以是逐层叠加的可通过Previous或Next按钮确定控制变量间的层次关系。()选择Displayclusteredbarcharts选项指定绘制各变量交叉分组下频数分布条形图。Suppresstables表示不输出列联表在仅分析行列变量间关系时可选择该选项。()单击Cells按钮指定列联表单元格中的输出内容窗口如下:Crosstabs的CellDisplay对话框选择在列联表中输出的统计量包括观测量数、百分比、残差输出观测量的实际数量如果行和列变量在统计上是独立的或不相关的那么会在单元格中输出期望的观测值的数量。输出单元格中观测量的数目占整行全部观测量数目的百分比输出单元格中观测值的数目占整列全部观测量数目的百分比输出单元格中观测量的数目占全部观测量数目的百分比计算非标准化残差计算标准化残差计算调整后残差SPSS默认列联表单元格中只输出观测频数(Observed)。为便于分析通常还应指定输出Percentage框中的行百分比(Row)、列百分比(Column)、总百分比(Total)。Counts框中的Expected表示输出期望频数Residuals框中的各个选项表示在各个单元格中输出剩余。其中Unstandardized为非标准化剩余定义为观测频数-期望频数Standardized为标准化剩余又称Pearson剩余定义为:()单击Format按钮指定列联表各单元格的输出排列顺序。Ascending表示以行变量取值的升序排列是SPSS默认项Descending表示以行变量取值的降序排列。()单击Statistics按钮指定用哪种方法分析行变量和列变量间的关系窗口如下其中ChiSquare为卡方检验。交叉列联表行列变量间关系的分析对交叉列联表中的行变量和列变量之间关系进行分析是交叉分组下频数分析的第二个任务。为了理解行、列变量之间的关系可以从分析两个极端的例子出发:()年龄与工资收入的交叉列联表(一)()年龄与工资收入交叉列联表(二)表一中表示年龄与工资收入呈正相关关系表二表示年龄与工资收入呈负相关关系。但大多数情况下观测频数分散在列联表的各个单元格中不容易直接发现行列变量之间的关系强弱程度此时就要借助非参数检验方法。通常用的方法是卡方检验。交叉列联表的卡方检验交叉列联表的卡方检验卡方检验属假设检验的范畴步骤如下:()建立原假设在列联表分析中卡方检验的原假设为行变量与列变量独立()选择和计算检验统计量列联表分析卡方检验统计量是Pearson卡方统计量其数学定义为:其中r为列联表的行数c为列联表的列数为观察频数为期望频数(ExpectedCount)。期望频数的计算方法是:其中RT是指定单元格所在行的观测频数合计CT是指定单元格所在列的观测频数合计n是观测频数的合计。期望频数的分布反映的是行列变量互不相干下的分布。例如具有本科学历的高级工程师的期望频数是的计算公式是*=。这里期望频数可以理解为总共个职工的学历分布是:::如果遵从这种学历的总体比例关系高级职称三人的学历分布也应为:::于是期望频数为*、*、*、*。同理可以理解总共个职工的职称分布为:::本科学历人的期望频数分别为*、*、*、*。卡方统计量观测值的大小取决于两个因素:第一:列联表的单元格子数第二:观测频数与期望频数的总差值。在列联表确定的情况下卡方统计量观测值的大小取决于观测频数与期望频数的总差值。当总差值越大时卡方值也就越大实际分布与期望分布的差距越大表明行列变量之间越相关反之表明行列变量之间越独立。那么在统计上卡方统计量的观测值究竟达到什么程度才能断定行列变量不独立呢?由于该检验中的pearson卡方统计量近似服从卡方分布因此可依据卡方理论找到某自由度和显著性水平下的卡方值即卡方临界值。()确定显著性水平(SignificantLevel)和临界值显著性水平是指原假设为真却将其拒绝的风险即弃真的概率。通常设为或。在卡方检验中由于卡方统计量服从自由度为(行数-)×(列数-)的卡方分布因此在行列数目和显著性水平确定时卡方临界值是可唯一确定的。()结论和决策对统计推断做决策通常有两种方式:根据统计量观测值和临界值比较的结果进行决策。如果卡方观测值大于临界值则认为实际分布与期望分布之间的差距显著可以拒绝原假设断定列联表的行列变量间不独立存在相关关系反之接受原假设。根据统计量观测值的概率p值和显著性水平比较的结果进行决策。如果p值小于等于则认为卡方观测值出现的概率是很小的拒绝原假设断定列联表的行列变量间不独立存在依存关系反之接受原假设。什么是P值什么是P值是一个概率值如果原假设为真P值是抽样分布中大于或小于样本统计量的概率被称为观察到的(或实测的)显著性水平。双侧检验的P值双侧检验的P值左侧检验的P值左侧检验的P值右侧检验的P值右侧检验的P值利用P值进行检验(决策准则)利用P值进行检验(决策准则)若p值>,不拒绝H若p值<,拒绝H交叉分组下的频数分析应用举例利用居民储蓄调查数据进行分析实现以下目标:、分析城镇和农村储户对“未来收入状况的变化趋势”是否持相同的态度。、分析城镇和农村储户对什么合算的认同是否一致。分析:、该问题列联表的行变量为户口列变量为未来收入状况在列联表中输出各种百分比、期望频数、剩余、标准化剩余显示各交叉分组下频数分布柱形图并利用卡方检验方法对城镇和农村储户对该问题的态度是否一致进行分析。、该问题列联表的行变量为户口列变量为什么合算在列联表的基础上进行卡方检验。SPSS中列联表分析的其他方法对列联表中行列变量的分析除上述卡方检验方法之外SPSS还提供了其他测度变量间相关关系的检验方法包括:适用于两定类变量的方法:Nominal框中列出的方法属该类方法。适用于两定序变量的方法:Ordinal框中列出的方法属该类方法。适用于一定类变量、一定距变量的方法:Nominalbyinterval框中的Eta方法属该类方法。其他方法。多选项分析(频数分析和交叉分析)多选项分析(频数分析和交叉分析)多选项问题的概念:多选项问题是根据实际调查的需要要求被调查者从问卷给出的若干个可选答案中选择一个以上的答案。目前市场研究或许多领域对某事物评价的研究中常常遇到这样的问题。可以选多个分为限选和不限选:限选:如在种工作种类中选你喜欢的最多可选种(VarVar)求所有人喜欢各种工作的频数或频率。不限选:如在所列的种电器中你家所拥有的电器不限选(VarVar)求所有被调查家庭拥有各种电器的频数或频率。多选项问题的分解多选项问题的分解多选项二分法及其编码(multipledichotomiesmethod):多选项二分法是将多选项问题中的每一个答案设为一个SPSS变量每个变量值有或两个取值分别表示选择了该答案和不选择该答案。如对下面问题有个可能的答案每个可选择的答案由一个变量表示每个变量的值只能有表明“是”和“否”的两个代码或者。左边的表格为向顾客发放的颜色调查在选择服装时您喜欢什么颜色作为主体颜色在答案的“□”中打“”(可多选)这是一组问题每个问题均有两个答案回答者只能选择其中一种。在建立数据文件时变量名使用相同的变量主名后面加以不同序号组成本组问题的个变量名可以是colorcolor。而答案的编码规则为:回答“是”变量值为回答“否”变量值为其他值为缺失值。多选项分类法及其编码(multiplecategorymethod):多选项分类法中首先应估计多选项问题最多可能出现的答案个数然后为每个答案设置一个SPSS变量变量取值为多选项问题中的所有可选答案。如上面有关选择服装的主体颜色您可以选择喜欢的三种在提供的种答案前上选择。、红、橙、黄、绿、青、蓝、紫、黑、白说不清这是一个问题可以有三个答案。在建立数据文件时要建立三个变量colorcolor表示回答者选择的三个颜色。如选择结果为、红、、蓝、、黑则变量color的值为,变量color的值为,变量color的值为。如果采用多选二分法则有个选项故应设个变量运用编码方法编码即:。如果采用多选分类法则编码为。问题:择业中考虑的主要因素(多选)问题:择业中考虑的主要因素(多选)经济收入专业对口发展前途地理区位个人爱好风险大小劳动强度社会福利其他编码应为:。或。问题:您择业中考虑的主要因素有(限选三项)问题:您择业中考虑的主要因素有(限选三项)经济收入专业对口发展前途地理区位个人爱好风险大小劳动强度社会福利社会地位其他因为限选三项故应设三个变量编码依次为。多选项分析的基本操作多选项分析的基本操作首先将每个题的若干答案组成一个综合变量即变量集(Set)然后对综合变量的各种取值进行分析。只有通过定义多选项变量集spss才能确定应对哪些变量取相同值的个案数进行累加。多选项分析在SPSS中是通过AnalyzeMultipleResponse中的各项功能实现的。DefineSets:()从左边的变量中将多选变量集的变量选择到variablesinsets框中建立多选二分变量集或多选分类变量集。()在variablesarecodedas框中指定多选变量集中的变量是按照那种方法编码的。Dichotomies表示以多选二分法编码并在countedvalue中输入用哪个数值来表示选中该选项。categories表示以多选分类法编码并在range框中输入变量取值的最小值和最大值。()为多选项变量集命名系统会自动在该名字前加字符$。()单击add按钮将定义好的多选项变量集加到multresponsesets框中。Spss可以定义多个多选项变量集。Frequencies:对多选变量集进行频数分析。从multresponsesets中把待分析的多选项变量集选择到tablesfor框中Crosstabs:对多选变量集与其他变量集或与原基本变量进行交叉表分析。()选择列联表的行变量并定义取值范围()选择列联表的列变量并定义取值范围()选择列联表的控制变量并定义取值范围()单击option按钮选择列联表的输出内容和计算方法。Matchvariableacrossresponsesets选项表示如果列联表的行列变量均为多选项变量集时第一个变量集的第一个变量与第二个变量集的第一个变量作交叉分组依次类推。结果中:注意PctofResponses(占总回答数的%)和PctofCase(占总个案数%)的区别。多选项分析的应用举例多选项分析的应用举例利用居民储蓄调查数据进行分析实现以下两个分析目标:分析储户的储蓄目的分析不同年龄段储户的储蓄目的。分析分析为进行多选项分析首先定义名为cxmd的多选项变量集其中包括a、a、a三个变量然后对多选项变量集进行频数分析对不同年龄段储户储蓄目的进行分析采用多选项交叉分组下的频数分析。探索分析Explore探索分析Explore分析目的和方法奇异性:数据过大或过小(找出、分析原因、是否剔除)分布特征:数据是否来自正态总体考察方法:统计量和统计图形(箱式图、茎叶图、QQ图)一般是考察定距变量AnalyzeDescriptiveStatisticsExplore分析变量(DependentList):数值型变量分组变量(FactorList):分类变量标识变量(LabelCasesby):用某变量的值作为观察值得标识如idExplore主对话框选择一个或多个变量进入Dependent框作为分析变量单击OK可获得分析变量的一系列基本统计量和图形。此作为分组变量可以是字符变量对分析变量的分析将按该变量的观测值进行分组分析。可有多个分组变量这时会按多个变量的交叉组合进行分组。该框中的变量作为标识符在输出诸如异常值时用该变量进行标识只允许有一个标识符。可同时输出基本统计量和图形只输出基本统计量只输出图形Explore主对话框Statistics对话框输出基本统计量均值的置信区间可键入的任意值根据该值算出置信区间的上下限。给出中心趋势的最大似然比的稳健估计量当数据分布均匀且两尾较长或当数据中存在极端值时可给出比均值或中位数更合理的估计。输出最大和最小的个数且在输出窗口中加以标明。输出、、、、、和的百分位数。Statistics对话框Statistics子对话框:用于选择需要的描述统计量descriptives:输出均值、中位数、众数、修正均值、估计标准误、方差、标准差、最小值、最大值、全距、四分位差、峰度系数及其标准误、偏度系数及其标准误及指定的均值置信区间mestmators:做集中趋势的最大稳健估计该统计量是利用迭代方法计算出来的受异常值的影响要小得多。如果该估计量离均值较远则说明数据可能存在异常值此时宜用该估计量替代均值以反映集中趋势。一共会输出四种m估计量其中huber适用于数据接近正态分布时另三种则适用于数据中有许多异常值的情况outliers:输出五个最大值和五个最小值。percentiles:输出第、、、、、、分位数。plots子对话框:用于选择需要的统计图boxplots复选框:确定箱式图的绘制方式可以分组绘制(factorlevelstogether)也可以不分组绘制(dependentstogether)或者不绘制(none)descriptive复选框:可以选择绘制茎叶图(stemandleaf)和直方图(histogram)normalityplotwithtest:绘制正态分布图(QQ图)并进行变量是否符合正态分布的检验茎叶图(stemandleaf)茎叶图(stemandleaf)用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成其图形是由数字组成的以该组数据的高位数值作树茎低位数字作树叶树叶上只保留一位数字茎叶图类似于横置的直方图但又有区别:直方图可观察一组数据的分布状况但没有给出具体的数值茎叶图既能给出数据的分布状况又能给出每一个原始数值保留了原始数据的信息图的下方会标示出茎宽和实际值的倍数每行的茎和叶组成的数字再乘以茎宽即得到实际数据的近似值如茎宽为则图中的代表同样在图的下方也会标示出每片叶子代表的记录数。未分组数据茎叶图未分组数据茎叶图练习练习利用居民储蓄调查数据对一次存款金额变量进行探索性分析。比率分析比率分析比率分析的目的和主要指标比率分析用于对两变量间变量值比率变化的描述分析适用于数值型变量。例如根据年各地区保险业务情况的数据分析各地区财产保险业务的保费收入占全部业务保费收入的比例情况。通常的分析可以生成各个地区财产保险业务的保费收入占全部业务保费收入的比率变量然后对该比率变量计算基本描述统计量(如均值、中位数、标准差、全距等)进而刻画比率变量的集中趋势和离散程度。SPSS的比率分析除能够完成上述分析外还提供了其他相对比描述指标大致也属于集中趋势描述指标和离散程度描述指标的范畴具体包括:()加权比率均值(Weightedmean):两变量均值的比属集中趋势描述指标。()AAD(AverageAbsoluteDeviation)平均绝对离差:是对比率变量离散程度的描述计算公式为:其中是比率数M是比率变量的中位数N为样本数相对数或平均数计算平均数的计算相对数(或平均数)用Y表示有Y=aba、b为总量指标。求各期Y的平均一般不能采用简单算术平均法即因为各期数据Yi的对比基础bi不同它们对全期总平均水平的影响作用应轻重有别计算公式:分别计算其分子、分母的平均数对比得:上式实质上等于对各期Y加权算术平均。()COD(CoefficientofDispersion)离散系数:也是对比率变量离散程度的描述计算公式为:()PRD(PricerelatedDifferential)相关价格微分:是比率均值与加权比率均值的比也是比率变量离散程度的描述。()COV变异系数:用于对比率变量离散程度的描述分为基于均值的变异系数(MeancenteredCOV)和中位数的变异系数(MediancenteredCOV)。前者是通常意义下的变异系数是标准差除以均值后者定义为:比率分析的基本步骤()选择菜单Analyze-DescriptiveStatistics-Radio出现窗口()将比率变量的分子选择到Numerator框中将比率变量的分母选到Denominator框中。()如果做不同组间的比率比较则将分组变量选择到GroupVariable框中。()单击Statistics按钮指定输出哪些关于比率的描述统计量出现如下窗口:至此SPSS将自动计算比率变量并将相关指标输出到输出窗口中。报表中的描述性统计分析(casesummaries)过程报表中的描述性统计分析(casesummaries)过程casesummaries过程用于按指定的分组变量的不同水平进行交叉描述性统计分析。Analyzereportcasesummary进入。variables框:选择需要进行分析的变量可多选groupingvariables框:选择用于分组的变量。如果选择了多个分组变量则系统会按各个变量的不同取值的交叉组合对汇总变量进行分析。Displaycase:用于确定是否输出详细的记录列表下面的三个复选框用于选择具体的输出方式。Statistics子对话框用于选择一些常用的统计量。title子对话框:title框:用于定义输出表格的标题默认标题为casesummaries。caption框:用于给输出表格加上注解文字。subheadingsfortotals:用于选择是否给每个分组均显示所计算统计量的名称excludecasewithmissingvalueslistwise:用于选择是否在分析中删除带有缺失值的变量。missingstatisticsappearas:用于输出一个字符串用于在输出结果中表示缺失值。报表中的描述性统计分析举例报表中的描述性统计分析举例对居民储蓄调查数据中的居民存款金额按照户口和职业进行分类汇总得到均值、中位数及标准差。分析:可以使用splitfile过程然后使用descriptive过程来完成。但是我们用这里的casesummary过程一步就能完成。表格中的描述性统计分析(Basictables过程)表格中的描述性统计分析(Basictables过程)Basictables过程可对定类资料或定量资料进行各种复杂格式的描述。菜单操作:AnalyzetablesBasictablessummaries框:选择需要进行汇总的变量可以是定类变量也可以是定距变量可以选入多个但所有变量只能使用同样的汇总指标。subgroups框:用于定义分组汇总时的分组情况。表格中的描述性统计分析(Basictables过程)表格中的描述性统计分析(Basictables过程)down框:选入分行汇总变量表格中的汇总指标按照该变量的不同取值分行输出可以选入多个。across框:选入分列汇总变量separatetable框:选入分层汇总变量allcombination:默认选项所有分组变量按照选入顺序依次嵌套eachseparately:所有分组变量分别输出分组统计结果只是放在同一个表格中。表格中的描述性统计分析(Basictables过程)表格中的描述性统计分析(Basictables过程)statistics子对话框:percentilecutpoint框:选中percentile统计量时可用用于选择分界百分位点。format框:用于设置各种统计量的显示格式。label框:用于设定各种统计量的显示标签默认为统计量名称可以更改为中文。sortingbycellcount框:选择是否按照表中的频数顺序输出。表格中的描述性统计分析(Basictables过程)表格中的描述性统计分析(Basictables过程)layout子对话框:用于设定各种标题标签的显示方式。summaryvariablelables框:用于选择汇总变量标签的显示方式可以在左侧、顶部和分不同表格输出中选择。statisticslables框:用于选择统计量标签的显示方式。groupinsummaryvariabledimension框:如果在前面将汇总变量和分组变量选在了同一方向显示则可在此处选择是将汇总变量是与各亚组之下还是将分则变量值与汇总变量之下。lablegroupswithvaluelablesonly框:如果选中该框则各分组的变量名标签将被省略他们将用数值标签或数值本身来表示。表格中的描述性统计分析(Basictables过程)表格中的描述性统计分析(Basictables过程)totals子对话框:选择是否进行汇总以及设定汇总标签。totalsovereachgroupvariable框:要求给出每一分组的汇总结果缺失值将不纳入汇总分析。可在下方的lable框中更改分组汇总标签。tablemargintotals框:为表格的每一个维度生成汇总结果缺失值将不纳入汇总分析。format子对话框:表格中的描述性统计分析(Basictables过程)表格中的描述性统计分析(Basictables过程)format子对话框:emptycellappearance框:选择无频数单元格的表示方式默认为空可改为用零表示。missingstatisticsappearas框:选择对缺失值的表示方式默认为小数点可更改为十个字符长度内的任意字符串。表格中的描述性统计分析(Basictables过程)表格中的描述性统计分析(Basictables过程)例如:将收入情况和未来收入情况按照户口和职业进行频数统计。表格中的描述性统计分析(generaltables过程)表格中的描述性统计分析(generaltables过程)Basictables过程已经为我们提供了非常强大的制表能力但它只能分别对定量资料或分类资料进行汇总而且对于多选题数据无能为力generaltables则可以解决以上问题。菜单操作:Analyzetablesgeneraltablesstatisticslablesappear:选择统计量标签的显示方式。表格中的描述性统计分析(generaltables过程)表格中的描述性统计分析(generaltables过程)acrossthetop:每个统计量单独占一列标签在列顶部显示downtheside:每个统计量单独占一行标签在行首显示inthelayer:每个统计量单独占一页标签在页首显示rows框:选入行变量这些变量实际上就是需要进行汇总分析的变量可选入多个使用右边的选择框对汇总指标加以定义columns框:选入列变量类似于分组变量可选多个。layers框:选入分层汇总变量。表格中的描述性统计分析(generaltables过程)表格中的描述性统计分析(generaltables过程)selectedvariable框组:用于对行列变量的汇总指标、显示标签、组合方式加以定义。definescell:定类变量issummarized:定距变量omitlable:在结果中不输出选中的变量名或标签。〉nest与unnest<:当同一个框中选入多个变量时可用用于选择和更改变量间的组合方式前者为嵌套后者为分别输出。editstatistics:对行变量需要计算的汇总指标加以定义。inserttotal:为选中的行列层变量加入一个合计栏表格中的描述性统计分析(generaltables过程)表格中的描述性统计分析(generaltables过程)multresponsesets子对话框:用于定义多选题变量集。variablesinsets框:选入需要加入同一个多选题变量集的变量列表。variablesarecodedas:选择变量集中变量的编码方式。name框:输入多选题变量集的名称lable框:为相应的多选题变量集定义一个名称标签。denominatorformultipleresponsepercentages:用于定义计算百分比时是基于受访者人数(respondents)还是基于回答数(responses)默认是基于受访者人数分析。multiresponsesets:已定义好的变量集列表最多可定义个。表格中的描述性统计分析(generaltables过程)表格中的描述性统计分析(generaltables过程)例如:对收入水平、存款金额和存款目的按照户口和职业进行分析。表格中的描述性统计分析(multipleresponsetables过程)表格中的描述性统计分析(multipleresponsetables过程)multipleresponsetables过程专门为多选题设计可以满足多选题数据报告中的各种要求。同时在该过程中你可以像使用普通变量一样使用多选题变量集可以将它选入任何框中这大大扩展了可能的多选题报表格式。菜单操作:Analyzecustomtablesmultipleresponsetablesrows框:选入行变量可多选column框:选入列变量可多选layers框:选入层变量可多选multipleresponse框:列出已定义好的多选题变量集凡在该框中列出的变量集均可像普通变量一样使用nesting框:用于确定是否对行列层变量进行嵌套显示。表格中的描述性统计分析(multipleresponsetables过程)表格中的描述性统计分析(multipleresponsetables过程)definesets实际上就是generaltables过程中的multresponsesets子对话框用于定义多选题变量集。statistics子对话框:statistics框组用于选择要输出的统计量默认为频数。选中相应的指标后可在右侧对应的label框中更改标签。formatforcounts框:用于选择频数的显示格式formatforpercentages框:用于选择百分比的显示格式statisticslabel框:用于选择统计量标签的显示方式。表格中的描述性统计分析(tablesof

用户评价(0)

关闭

新课改视野下建构高中语文教学实验成果报告(32KB)

抱歉,积分不足下载失败,请稍后再试!

提示

试读已结束,如需要继续阅读或者下载,敬请购买!

文档小程序码

使用微信“扫一扫”扫码寻找文档

1

打开微信

2

扫描小程序码

3

发布寻找信息

4

等待寻找结果

我知道了
评分:

/117

SPSS基本统计分析2

VIP

在线
客服

免费
邮箱

爱问共享资料服务号

扫描关注领取更多福利