首页 数据清理与基本统计分析

数据清理与基本统计分析

举报
开通vip

数据清理与基本统计分析会计学1数据清理与基本统计分析数据清理与基本统计分析是进行其他分析的基础和前提。通过基本统计分析,用户可以对分析数据的总体特征有比较准确的把握,从而选择更为深入的分析方法对分析对象进行研究。第1页/共59页数据检查与清理一是检查每个变量值的合理性(即发现奇异数据与错误数据);二是检查各变量值之间逻辑上的合理性。SPSS操作步骤:“Analyze”›”DescriptiveStatistics”›”Frequencies”第2页/共59页基本统计分析基本统计分析通常有两种形式:一是通过一些特征量数来反映数据的分布情况...

数据清理与基本统计分析
会计学1数据清理与基本统计分析数据清理与基本统计分析是进行其他分析的基础和前提。通过基本统计分析,用户可以对分析数据的总体特征有比较准确的把握,从而选择更为深入的分析方法对分析对象进行研究。第1页/共59页数据检查与清理一是检查每个变量值的合理性(即发现奇异数据与错误数据);二是检查各变量值之间逻辑上的合理性。SPSS操作步骤:“Analyze”›”DescriptiveStatistics”›”Frequencies”第2页/共59页基本统计分析基本统计分析通常有两种形式:一是通过一些特征量数来反映数据的分布情况;二是以统计图 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 的形式直观呈现数据的分布特征。本章主要介绍平均数、中位数、众数、方差、百分数、频数等基本概念,以及在SPSS中如何进行计算操作。第3页/共59页数据的描述性测度中心测度(Centraltendency)平均数;中位数;众数变化测度(Dispersion)全距;方差与 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 差;四分位数和四分位距;极值形态测度(Distribution)偏度;峰度第4页/共59页(一)中心测度中心测度是指刻画数据集中趋势的数字,用来描述数据的中心位于何处。最常用的中心测度为平均数、中位数和众数,其中平均数和中位数只适用于定量数据,而众数既适用于定量数据,也适用于定性(分类)数据。第5页/共59页(1)算术平均数(M)μ——总体算术平均数——样本算术平均数第6页/共59页算术平均数的特性所有观察值关于平均数的偏差和为零,即对极值非常敏感。所有观察值关于平均数的偏差平方和最小。第7页/共59页算术平均数的计算利用原始数据进行计算利用频数分布表计算第8页/共59页用样本数据推断总体集中量时,算术平均数最接近于总体集中量的真值,它是总体平均数的最好估计值。在计算方差、标准差、相关系数以及进行统计推断时,都要用到它。第9页/共59页算术平均数的优缺点优点——反应灵敏——严密确定——简明易懂——适合代数运算——受抽样变动的影响较小缺点——易受极端数值的影响——一组数据中某个数值的大小模糊不清或不够确切时无法计算第10页/共59页(2)加权平均数加权平均数是不同比重数据(或平均数)的平均数。用表示。其 计算公式 六西格玛计算公式下载结构力学静力计算公式下载重复性计算公式下载六西格玛计算公式下载年假计算公式 有两种形式第11页/共59页(3)中位数定义:中位数是把按从小到大(从大到小)排列的一组数据一分为二的数值。中位数的计算:1.用原始数据计算(分奇数个数据和偶数个数据)2.利用次数分布表计算第12页/共59页第13页/共59页利用次数分布表计算中位数(1)计算公式(由小向大计算)表示中位数所在组的下限;N表示总频数;中位数所在组的频数;表示小于中位数所在组下限的频数综合。第14页/共59页中位数的优缺点与应用优点:不易受极端值影响缺点:不适合代数计算应用条件:一组数据中有特大或特小两极端数值时;一组数据中两端数据或个别数据不确切、不清楚时;当需要快速估计一组数据的代表值时;数据资料属于等级性质时。第15页/共59页(4)众数众数的概念理论众数是指与频数分布曲线最高点相对应的横坐标上的一点。粗略众数是指一组数据中频数出现最多的那个数。第16页/共59页第17页/共59页众数的计算方法(1)用观察法直接寻找众数在频数分布表中,频数最多一组的组中值就是粗略众数。当两个相邻的组的频数都是最多时,那么两分组的分组点就是众数。第18页/共59页(2)皮尔逊的经验法当频数分布呈正态或接近正态时,皮尔逊发现众数近似地等于3倍的中位数减去2倍的算术平均数。众数的计算方法第19页/共59页众数的适用情况当需要快速而又粗略地找出一组数据的代表值时。当需要利用算术平均值、中位数、众数三者关系来粗略判断频数分布的形态时。利用众数帮助分析解释一组次数分布是否确实具有两个次数最多的集中点时。第20页/共59页平均数、中位数、众数三者之间的关系第21页/共59页常用中心测度概括测度特点使用注意事项众数适合于描述分类变量或称名变量的趋中程度不准确、信息量有限、易产生误导中数如果需要知道数据分布的中点或者数据分布明显偏态时,优先使用。对存在的极端高或极端低的数值不敏感平均数是最经常使用、最容易计算、容易理解的趋中测度对极值很敏感。如果数据中存在较多的极值,或者分布明显偏态,可能产生误导加权平均数需要了解若干容量不同的子群体的总平均分权重的使用最为重要,尤其是子群体容量明显不同时第22页/共59页(二)变化测度变化测度是描述一组数据的变化程度或分散程度的数值。常用变化测度包括:(1)全距(全距=最高分-最低分)(2)方差与标准偏差(3)四分位差(4)极值第23页/共59页(2)平均差、方差与标准差平均差(MD):就是每一个数据与该组数据的中位数(或算术平均数)离差的绝对值的算术平均数。第24页/共59页平均差的优缺点与极差相比,平均差是利用全部数据信息计算的,意义明确,计算容易,较好地度量了次数分布的离散程度。但计算要用到绝对值,使它的应用大大受到限制。第25页/共59页方差方差是指离差平方和的算术平均数。用表示。方差虽然避免了绝对值的麻烦,但却又使变量的单位变成原单位的平方。第26页/共59页标准差标准差是指离差平方和平均后的方根,即方差的平方根。用表示。第27页/共59页方差与标准差的优缺点优点:反映灵敏,严密确定,计算简单,用样本数据推断总体差异量时,方差与标准差是最好的估计量。缺点:易受极端数值的影响,有个别数据模糊不清时便无法计算。第28页/共59页(3)四分位差百分位数:就是次数分布中相对于某个特定百分点的原始分数。百分位数的计算公式如下:Pm——第m百分位数;L——Pm所在组的组下限;f——Pm所在组的次数;Fb——小于L的累计次数。第29页/共59页第30页/共59页百分位差百分位差:是指两个百分位数之差。常用的有:第31页/共59页四分位差若将从小到大排列的一组数据分成频数相等的四段,第一与第二段的分界点称为第一个四分位数。第三段与第四段的分界点称为第三个四分位数。则四分位差就是第三个四分位数(第75百分位数)与第一个四分位数(第25百分位数)的差。公式为:第32页/共59页极差、百分位差、四分位差极差:最简单、最易理解的差异量数,但也是最粗糙、最不可靠的值。级差明显地受取样变动的影响,一般情况下主要用于对数据做预备性检查,了解数据的大概散布范围,以便确定如何进行统计分组。百分位差与四分位差:与极差相比,避免了极端数据的影响,但由于没有把全部数据考虑在内,其稳定性会差一些。另外,它们也不适合代数方法运算,反应不够灵敏,应用不多。第33页/共59页(4)极值极值是指位于数据总体分布之外的一些极端的数值。极值的产生可能主要有下列原因:(1)极值是真的测量结果;(2)可能是由于数据记录或录入误差造成的;(3)极值数据可能来自其他总体。第34页/共59页确定极值的方法统计学上通常用四分位数和四分位距作为确定极值的工具,过程如下:(1)首先根据四分位数和四分位距确定数据分布的上、下限:下限=Q1-.1.5IQR;上限=Q3+1.5IQR(2)小于下限和大于上限的观察值就是潜在的极值。(3)确定了潜在的观察值后,可以用直方图、茎叶图等进一步检查这些观察值是否真的是极值。第35页/共59页(三)分布形态测度偏度:是描述数据分布对称性的测度。第36页/共59页偏度是与正态分布相比较的量,偏度为0表示其数据分布与正态分布偏度相同,数据呈对称分布,此时平均数与中数相等;偏度大于0表示正偏差数值较大,数据呈正偏态(或右偏态),此时平均数大于中数;偏度小于0表示负偏差数值较大,数据呈负偏态(或左偏态),此时平均数小于中数。而偏度的绝对值数值越大表示分布形态的偏差程度越大。第37页/共59页第38页/共59页峰度峰度是描述数据围绕平均数分布的紧密程度,或者分散程度。第39页/共59页峰度与平均数、标准偏差一样,峰度对极端值的存在非常敏感。统计学上,将数据分布分为三种类型,即常峰态、低峰态和尖峰态。峰度为0表示其数据分布与正态分布的趋缓程度相同,数据呈常峰态。峰度小于0表示比正态分布更加平坦,数据呈低峰态,即中间部分的数据较少,相当一部分数据分布在两端极端高或极端低的位置,而且这种分布的偏度指数一般不太高。峰度大于0表示比正态分布更加陡峭,数据呈尖峰态,即相当一部分数据分布在少数的位置,这个位置可以是靠中间的位置,也可以是靠某一端的位置,其他位置的数据分布明显较少。第40页/共59页第41页/共59页分布平均数中位数众数离散程度第42页/共59页SPSS的基本统计分析在SPSS的Analyze菜单中包括了一系列统计分析过程。其中Reports和DescriptiveStatistics命令项中包括的功能是对单变量的描述统计分析。DescriptiveStatistics包括的统计功能有:Frequencies:频数分析Descriptives:描述统计量分析Explore:探索分析Crosstabs:多维频数分布交叉表(列联表)Reports包括的统计功能有:OLAPCubes:OLAP 报告 软件系统测试报告下载sgs报告如何下载关于路面塌陷情况报告535n,sgs报告怎么下载竣工报告下载 摘要表CaseSummaries:观测量列表ReportSummariesinRow(Columns):行(列)形式输出报告第43页/共59页频数分析Frequencies1、了解变量的取值分布情况对整体把握数据的特征是非常有利的。2、求分类(定类、定序)变量的频数和作Bar图3、求定距变量(连续变量)的分布情况和作直方图Histogram4、对连续变量进行分组(recode)后再求频数,如老中青(35,60)的比例,文化程度(中学、大学及以上)的人数及比例等5、Analyze+DescriptiveStatistics+Frequencies第44页/共59页描述统计分析过程Descriptives1、功能:了解数据的基本统计特征和对指定的变量值进行标准化处理(标准化后的新变量的均值为0,标准差为1,目的是为了消除各变量间变量值在数量级上的差异,从而增强数据间的可比性)。2、描述统计分析过程通过平均值(Mean)、算术和(Sum)、标准差(StdDev)、最大值(Maximum)、最小值(Minimum)、方差(Variance)、范围(Range)、平均数标准误(S.E.Mean)等统计量对变量进行描述。3、一般是求定距变量的描述统计量,从中分析差异性(max,min)4、Analyze+DescriptiveStatistics+Descriptives第45页/共59页探索分析Explore1.考察数据的奇异性和分布特征奇异性:数据的过大或过小(找出、分析原因、是否剔除)分布特征:数据是否来自正态分布总体考察方法:统计量和统计图形(箱图、茎叶图(频数、茎和叶)、方差齐次性检验(Spreadvslevel图)2.一般是考察定距变量3.Analyze+DescriptiveStatistics+Explore因(分析)变量(DependentList):定距变量分组变量(FactorList):分类变量标识变量(LabelCasesby):为方便查找输出观测量如id第46页/共59页多维频数分布表(交叉表,列联表)二维或多维交叉频数表(列联表),分析事物(变量)之间的相互影响和关系Analyze+DescriptiveStatistics+Crosstabs行变量(Row):需分类变量列变量(Column):需分类变量分层变量(Layer):条件(若有,需分类变量)Statistics选项:Chi-square复选项及其四种检验结果Correlations复选项:相关系数第47页/共59页SPSS的单变量描述统计命令AFrequencies:频数统计Statistics—Summarize—Frequencies第48页/共59页变量值频数百分比有效百分比累计百分比第49页/共59页中位数第50页/共59页百分比和有效百分比第51页/共59页BDescriptives:定距变量描述统计Statistics—Summarize—Descriptives第52页/共59页变量名平均数标准差最小值最大值第53页/共59页统计报表分析(Reports)OLAPCubes:在线分析处理CaseSummaries:观测值摘要分析ReportSummariesinRow:行形式输出报告ReportSummariesinColumns:列形式输出报告第54页/共59页OLAP报告摘要表OLAPCubesOLAP(OnlineAnalyticalProcessing)在线分析处理过程以分组变量为基础,计算各组的总计、均值和其他统计量。而输出的报告摘要则是指每个组中所包含的各种变量的统计信息。Analyze+Reports+OLAPCubesSummaryVariables:要进行统计汇总的数值型变量GroupingVariables:分组变量(分类变量),注意:此分组变量在实际的运算过程中并不发挥分组的功能,而是确定进入统计的观测量的范围。如选择数学成绩作为摘要分析变量,而性别作为分组变量,要计算数学平均成绩,则结果中显示的并不是男生的数学平均成绩和女生的数学平均成绩,而是所有男女生观测量的数学成绩的总平均值。即所有性别有值(非MissingValue)的Case,才参与分析计算Statistics选项:Sum和、NumberofCases观测量数目、Mean均值、Median中位数、Maximum最大…等等第55页/共59页CaseSummaries:观测量列表个案简明统计报表用于按指定分组统计量不同,水平的交叉组合对变量进行记录列表,并计算相应的统计量。它主要为定量资料的描述服务,是一个比较常用的过程。查看或打印所需要的变量值Analyze+Reports+CaseSummariesVariables:要显示的变量名GroupingVariables:分组变量(分类变量)结果显示:多行或单行第56页/共59页行形式输出报告Summary按行,如:sum、mean、max、min、count、stddev、variance、percentage(above,below,inside)等菜单:Analyze+Reports+ReportSummariesinRowsDataColumn:报告变量BreakColumn:分组变量及其Summary(多个交叉)Report:可对全部数据进行描述统计(GrandTotal)DisplayCases:是否显示每一个观测量第57页/共59页列形式输出报告Summary按列,如:sum、mean、max、min、count、stddev、variance、percentage(above,below,inside)等菜单:Analyze+Reports+ReportSummariesinColumnsDataColumn:报告变量一一对应的SummaryInsertTotal:汇总列,可汇总两列或多列的信息BreakColumn:分组变量(多个交叉)及SubtotalReport:可对全部数据进行描述统计(GrandTotal)第58页/共59页
本文档为【数据清理与基本统计分析】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
莉莉老师
暂无简介~
格式:ppt
大小:304KB
软件:PowerPoint
页数:0
分类:
上传时间:2021-10-18
浏览量:5