关闭

关闭

关闭

封号提示

内容

首页 第10章 数据的统计描述和分析.pdf

第10章 数据的统计描述和分析.pdf

第10章 数据的统计描述和分析.pdf

上传者: Gingerjin 2012-07-26 评分 0 0 0 0 0 0 暂无简介 简介 举报

简介:本文档为《第10章 数据的统计描述和分析pdf》,可适用于工程科技领域,主题内容包含第十章数据的统计描述和分析数理统计研究的对象是受随机因素影响的数据以下数理统计就简称统计统计是以概率论为基础的一门应用学科。数据样本少则几个多则成千符等。

第十章数据的统计描述和分析数理统计研究的对象是受随机因素影响的数据以下数理统计就简称统计统计是以概率论为基础的一门应用学科。数据样本少则几个多则成千上万人们希望能用少数几个包含其最多相关信息的数值来体现数据样本总体的规律。描述性统计就是搜集、整理、加工和分析统计数据使之系统化、条理化以显示出数据资料的趋势、特征和数量关系。它是统计推断的基础实用性较强在统计工作中经常使用。面对一批数据如何进行描述与分析需要掌握参数估计和假设检验这两个数理统计的最基本方法。我们将用Matlab的统计工具箱(StatisticsToolbox)来实现数据的统计描述和分析。统计的基本概念总体和样本总体是人们研究对象的全体又称母体如工厂一天生产的全部产品(按合格品及废品分类)学校全体学生的身高。总体中的每一个基本单位称为个体个体的特征用一个变量(如x)来表示如一件产品是合格品记=x是废品记=x一个身高(cm)的学生记=x。从总体中随机产生的若干个个体的集合称为样本或子样如n件产品名学生的身高或者一根轴直径的次测量。实际上这就是从总体中随机取得的一批数据不妨记作nxxx,,,Ln称为样本容量。简单地说统计的任务是由样本推断总体。频数表和直方图一组数据(样本)往往是杂乱无章的做出它的频数表和直方图可以看作是对这组数据的一个初步整理和直观描述。将数据的取值范围划分为若干个区间然后统计这组数据在每个区间中出现的次数称为频数由此得到一个频数表。以数据的取值为横坐标频数为纵坐标画出一个阶梯形的图称为直方图或频数分布图。若样本容量不大能够手工做出频数表和直方图当样本容量较大时则可以借助Matlab这样的软件了。让我们以下面的例子为例介绍频数表和直方图的作法。例学生的身高和体重学校随机抽取名学生测量他们的身高和体重所得数据如表表身高体重数据身高体重身高体重身高体重身高体重身高体重(i)数据输入数据输入通常有两种方法一种是在交互环境中直接输入如果在统计中数据量比较大这样作不太方便另一种办法是先把数据写入一个纯文本数据文件datatxt中格式如例的表有行、列数据列之间用空格键或Tab键分割该数据文件datatxt存放在matlabwork子目录下在Matlab中用load命令读入数据具体作法是:loaddatatxt这样在内存中建立了一个变量data它是一个包含有个数据的矩阵。为了得到我们需要的个身高和体重各为一列的矩阵应做如下的改变:high=data(:,::)high=high(:)weight=data(:,::)weight=weight(:)(ii)作频数表及直方图求频数用hist命令实现其用法是:N,X=hist(Y,M)得到数组(行、列均可)Y的频数表。它将区间min(Y),max(Y)等分为M份(缺省时M设定为)N返回M个小区间的频数X返回M个小区间的中点。命令hist(Y,M)画出数组Y的直方图。对于例的数据编写程序如下:loaddatatxthigh=data(:,::)high=high(:)weight=data(:,::)weight=weight(:)n,x=hist(high)下面语句与hist命令等价n=length(find(high<)),length(find(high>=high<)),length(find(high>=high<)),length(find(high>=high<)),length(find(high>=high<)),length(find(high>=high<)),length(find(high>=high<)),length(find(high>=high<)),length(find(high>=high<)),length(find(high>=))n,x=hist(weight)subplot(,,),hist(high)subplot(,,),hist(weight)计算结果略直方图如图所示。图直方图从直方图上可以看出身高的分布大致呈中间高、两端低的钟形而体重则看不出什么规律。要想从数值上给出更确切的描述需要进一步研究反映数据特征的所谓“统计量”。直方图所展示的身高的分布形状可看作正态分布当然也可以用这组数据对分布作假设检验。例统计下列五行字符串中字符a、g、c、t出现的频数aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggcggaggacaaacgggatggcggtattggaggtggcggactgttcggggagggacggatacggattctggccacggacggaaaggaggacacggcggacatacaatggataacggaaacaaaccagacaaacttcggtagaaatacagaagcttacggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggc解把上述五行复制到一个纯文本数据文件shujutxt中放在matlabwork子目录下编写如下程序:clcfid=fopen('shujutxt','r')i=while(~feof(fid))data=fgetl(fid)a=length(find(data==))b=length(find(data==))c=length(find(data==))d=length(find(data==))e=length(find(data>=data<=))f(i,:)=abcdeabcdi=iendf,he=sum(f)dlmwrite('pinshutxt',f)dlmwrite('pinshutxt',he,'append')fclose(fid)我们把统计结果最后写到一个纯文本文件pinshutxt中在程序中多引进了几个变量是为了检验字符串是否只包含a、g、c、t四个字符。统计量假设有一个容量为n的样本(即一组数据)记作),,,(nxxxxL=需要对它进行一定的加工才能提出有用的信息用作对总体(分布)参数的估计和检验。统计量就是加工出来的、反映样本数量特征的函数它不含任何未知量。下面我们介绍几种常用的统计量。(i)表示位置的统计量算术平均值和中位数算术平均值(简称均值)描述数据取值的平均位置记作x==niixnx()中位数是将数据由小到大排序后位于中间位置的那个数值。Matlab中mean(x)返回x的均值median(x)返回中位数。(ii)表示变异程度的统计量标准差、方差和极差标准差s定义为)(==niixxns()它是各个数据与均值偏离程度的度量这种偏离不妨称为变异。方差是标准差的平方s。极差是),,,(nxxxxL=的最大值与最小值之差。Matlab中std(x)返回x的标准差var(x)返回方差range(x)返回极差。你可能注意到标准差s的定义()中对n个)(xxi的平方求和却被)(n除这是出于无偏估计的要求。若需要改为被n除Matlab可用std(x,)和var(x,)来实现。(iii)中心矩、表示分布形状的统计量偏度和峰度随机变量x的r阶中心矩为rExxE)(。随机变量x的偏度和峰度指的是x的标准化变量DxExx)(的三阶中心矩和四阶中心矩:()(),)()()()(xDxExExDxExE==ν()())()()()(xDxExExDxExE==ν偏度反映分布的对称性>ν称为右偏态此时数据位于均值右边的比位于左边的多<ν称为左偏态情况相反而ν接近则可认为分布是对称的。峰度是分布形状的另一种度量正态分布的峰度为若ν比大得多表示分布有沉重的尾巴说明样本中含有较多远离均值的数据因而峰度可以用作衡量偏离正态分布的尺度之一。Matlab中moment(x,order)返回x的order阶中心矩order为中心矩的阶数。skewness(x)返回x的偏度kurtosis(x)返回峰度。在以上用Matlab计算各个统计量的命令中若x为矩阵则作用于x的列返回一个行向量。对例给出的学生身高和体重用Matlab计算这些统计量程序如下:clcloaddatatxthigh=data(:,::)high=high(:)weight=data(:,::)weight=weight(:)shuju=highweightjunzhi=mean(shuju)zhongweishu=median(shuju)biaozhuncha=std(shuju)jicha=range(shuju)piandu=skewness(shuju)fengdu=kurtosis(shuju)统计量中最重要、最常用的是均值和标准差由于样本是随机变量它们作为样本的函数自然也是随机变量当用它们去推断总体时有多大的可靠性就与统计量的概率分布有关因此我们需要知道几个重要分布的简单性质。统计中几个重要的概率分布分布函数、密度函数和分位数随机变量的特性完全由它的(概率)分布函数或(概率)密度函数来描述。设有随机变量X其分布函数定义为xX的概率即}{)(xXPxF=。若X是连续型随机变量则其密度函数)(xp与)(xF的关系为=xdxxpxF)()(上α分位数是下面常用的一个概念其定义为:对于<<α使某分布函数α=)(xF的x称为这个分布的上α分位数记作αx。我们前面画过的直方图是频数分布图频数除以样本容量n称为频率n充分大时频率是概率的近似因此直方图可以看作密度函数图形的(离散化)近似。统计中几个重要的概率分布(i)正态分布正态分布随机变量X的密度函数曲线呈中间高两边低、对称的钟形期望(均值)μ=EX方差σ=DX记作),(~σμNXσ称均方差或标准差当,==σμ时称为标准正态分布记作),(~NX。正态分布完全由均值μ和方差σ决定它的偏度为峰度为。正态分布可以说是最常见的(连续型)概率分布成批生产时零件的尺寸射击中弹着点的位置仪器反复量测的结果自然界中一种生物的数量特征等多数情况下都服从正态分布这不仅是观察和经验的总结而且有着深刻的理论依据即在大量相互独立的、作用差不多大的随机因素影响下形成的随机变量其极限分布为正态分布。鉴于正态分布的随机变量在实际生活中如此地常见记住下面个数字是有用的:的数值落在距均值左右个标准差的范围内即}{=σμσμXP的数值落在距均值左右个标准差的范围内即}{=σμσμXP的数值落在距均值左右个标准差的范围内即}{=σμσμXP(ii)χ分布(Chisquare)若nXXX,,,L为相互独立的、服从标准正态分布),(N的随机变量则它们的平方和==niiXY服从χ分布记作)(~nYχn称自由度它的期望nEY=方差nDY=。(iii)t分布若),(~NX)(~nYχ且相互独立则nYXT=服从t分布记作)(~ntTn称自由度。t分布又称学生氏(Student)分布。t分布的密度函数曲线和),(N曲线形状相似。理论上n时),()(~NntT实际上当>n时它与),(N就相差无几了。(iv)F分布若)(~nXχ)(~nYχ且相互独立则nYnXF=服从F分布记作),(~nnFF),(nn称自由度。Matlab统计工具箱(ToolboxStats)中的概率分布Matlab统计工具箱中有种概率分布这里只对上面所述种分布列出命令的字符:norm正态分布chiχ分布tt分布fF分布工具箱对每一种分布都提供类函数其命令的字符是:pdf概率密度cdf分布函数inv分布函数的反函数stat均值与方差rnd随机数生成当需要一种分布的某一类函数时将以上所列的分布命令字符与函数命令字符接起来并输入自变量(可以是标量、数组或矩阵)和参数就行了如:p=normpdf(x,mu,sigma)均值mu、标准差sigma的正态分布在x的密度函数(mu=sigma=时可缺省)。p=tcdf(x,n)t分布(自由度n)在x的分布函数。x=chiinv(p,n)χ分布(自由度n)使分布函数F(x)=p的x(即p分位数)。m,v=fstat(n,n)F分布(自由度n,n)的均值m和方差v。几个分布的密度函数图形就可以用这些命令作出如:x=::y=normpdf(x)z=normpdf(x,,)plot(x,y,x,z),gtext('N(,)'),gtext('N(,^)')分布函数的反函数的意义从下例看出:x=chiinv(,)x=如果反过来计算则P=chicdf(,)P=正态总体统计量的分布用样本来推断总体需要知道样本统计量的分布而样本又是一组与总体同分布的随机变量所以样本统计量的分布依赖于总体的分布。当总体服从一般的分布时求某个样本统计量的分布是很困难的只有在总体服从正态分布时一些重要的样本统计量(均值、标准差)的分布才有便于使用的结果。另一方面现实生活中需要进行统计推断的总体多数可以认为服从(或近似服从)正态分布所以统计中人们在正态总体的假定下研究统计量的分布是必要的与合理的。设总体),(~σμNXnxxx,,,L为一容量n的样本其均值x和标准差s由式()、()确定则用x和s构造的下面几个分布在统计中是非常有用的。),(~nNxσμ或),(~Nnxσμ())(~)(nsnχσ())(~ntnsxμ()设有两个总体),(~σμNX和),(~σμNY及由容量分别为nn的两个样本确定的均值yx,和标准差,ss则),(~)()(Nnnyxσσμμ())(~)()(nntnnsyxwμμ()其中)()(=nnsnsnsw),(~nnFssσσ()对于()式假定σσ=但它们未知于是用s代替。在下面的统计推断中我们要反复用到这些分布。参数估计利用样本对总体进行统计推断的一类问题是参数估计即假定已知总体的分布通常是),(~σμNX估计有关的参数如,σμ。参数估计分点估计和区间估计两种。点估计点估计是用样本统计量确定总体参数的一个数值。评价估计优劣的标准有无偏性、最小方差性、有效性等估计的方法有矩法、极大似然法等。最常用的是对总体均值μ和方差σ(或标准差σ)作点估计。让我们暂时抛开评价标准当从一个样本按照式()、()算出样本均值x和方差s后对μ和σ(或σ)一个自然、合理的点估计显然是(在字母上加^表示它的估计值)x=μˆˆs=σs=σˆ()区间估计点估计虽然给出了待估参数的一个数值却没有告诉我们这个估计值的精度和可信程度。一般地总体的待估参数记作θ(如,σμ)由样本算出的θ的估计量记作θˆ人们常希望给出一个区间ˆ,ˆθθ使θ以一定的概率落在此区间内。若有αθθθ=<<}ˆˆ{P<<α()则ˆ,ˆθθ称为θ的置信区间ˆ,ˆθθ分别称为置信下限和置信上限α称为置信概率或置信水平α称为显著性水平。给出的置信水平为α的置信区间ˆ,ˆθθ称为θ的区间估计。置信区间越小估计的精度越高置信水平越大估计的可信程度越高。但是这两个指标显然是矛盾的通常是在一定的置信水平下使置信区间尽量小。通俗地说区间估计给出了点估计的误差范围。参数估计的Matlab实现Matlab统计工具箱中有专门计算总体均值、标准差的点估计和区间估计的函数。对于正态总体命令是mu,sigma,muci,sigmaci=normfit(x,alpha)其中x为样本(数组或矩阵)alpha为显著性水平α(alpha缺省时设定为)返回总体均值μ和标准差σ的点估计mu和sigma及总体均值μ和标准差σ的区间估计muci和sigmaci。当x为矩阵时x的每一列作为一个样本。Matlab统计工具箱中还提供了一些具有特定分布总体的区间估计的命令如expfitpoissfitgamfit你可以从这些字头猜出它们用于哪个分布具体用法参见帮助系统。假设检验统计推断的另一类重要问题是假设检验问题。在总体的分布函数完全未知或只知其形式但不知其参数的情况为了推断总体的某些性质提出某些关于总体的假设。例如提出总体服从泊松分布的假设又如对于正态总体提出数学期望等于μ的假设等。假设检验就是根据样本对所提出的假设做出判断:是接受还是拒绝。这就是所谓的假设检验问题。单个总体),(σμN均值μ的检验假设检验有三种:双边检验::μμ=H:μμH右边检验::μμH:μμ>H左边检验::μμH:μμ<H。σ已知关于μ的检验(Z检验)在Matlab中Z检验法由函数ztest来实现命令为h,p,ci=ztest(x,mu,sigma,alpha,tail)其中输入参数x是样本mu是H中的μsigma是总体标准差σalpha是显著性水平α(alpha缺省时设定为)tail是对备选假设H的选择:H为μμ时用tail=(可缺省)H为μμ>时用tail=H为μμ<时用tail=。输出参数h=表示接受Hh=表示拒绝Hp表示在假设H下样本均值出现的概率p越小H越值得怀疑ci是μ的置信区间。例某车间用一台包装机包装糖果。包得的袋装糖重是一个随机变量它服从正态分布。当机器正常时其均值为公斤标准差为公斤。某日开工后为检验包装机是否正常随机地抽取它所包装的糖袋称得净重为(公斤):问机器是否正常?解总体σ已知),(~μNxμ未知。于是提出假设:==μμH和:μH。Matlab实现如下:x=h,p,ci=ztest(x,,)求得h=p=说明在的水平下可拒绝原假设即认为这天包装机工作不正常。σ未知关于μ的检验(t检验)在Matlab中t检验法由函数ttest来实现命令为h,p,ci=ttest(x,mu,alpha,tail)例某种电子元件的寿命x(以小时计)服从正态分布,,σμ均未知现得只元件的寿命如下:问是否有理由认为元件的平均寿命大于(小时)解按题意需检验:,:>=μμμHH取=α。Matlab实现如下:x=h,p,ci=ttest(x,,,)求得h=p=说明在显著水平为的情况下不能拒绝原假设认为元件的平均寿命不大于小时。两个正态总体均值差的检验(t检验)还可以用t检验法检验具有相同方差的个正态总体均值差的假设。在Matlab中由函数ttest实现命令为:h,p,ci=ttest(x,y,alpha,tail)与上面的ttest相比不同处只在于输入的是两个样本x,y(长度不一定相同)而不是一个样本和它的总体均值tail的用法与ttest相似可参看帮助系统。例在平炉上进行一项试验以确定改变操作方法的建议是否会增加钢的得率,试验是在同一平炉上进行的。每炼一炉钢时除操作方法外,其它条件都可能做到相同。先用标准方法炼一炉,然后用建议的新方法炼一炉,以后交换进行,各炼了炉,其得率分别为标准方法新方法设这两个样本相互独立且分别来自正态总体),(σμN和),(σμN,,,σμμ均未知问建议的新方法能否提高得率(取=α。)解(i)需要检验假设:μμH:<μμH(ii)Matlab实现x=y=h,p,ci=ttest(x,y,,)求得h=,p=。表明在=α的显著水平下可以拒绝原假设即认为建议的新操作方法较原方法优。分布拟合检验在实际问题中有时不能预知总体服从什么类型的分布这时就需要根据样本来检验关于分布的假设。下面介绍χ检验法和专用于检验分布是否为正态的“偏峰、峰度检验法”。χ检验法H:总体x的分布函数为)(xF,H:总体x的分布函数不是)(xF在用下述χ检验法检验假设H时若在假设H下)(xF的形式已知但其参数值未知这时需要先用极大似然估计法估计参数然后作检验。χ检验法的基本思想如下:将随机试验可能结果的全体Ω分为k个互不相容的事件kAAAA,,,,),,,,,,,(kjijiAAAjikikL=Φ=Ω==。于是在假设H下,我们可以计算)(iiAPp=(或)(ˆˆiiAPp=)ki,,,L=。在n次试验中,事件iA出现的频率nfi与ip(ipˆ)往往有差异,但一般来说,若H为真,且试验的次数又甚多时,则这种差异不应该很大。基于这种想法皮尔逊使用==kiiiinpnpf)(χ(或==kiiiipnpnfˆ)ˆ(χ)()作为检验假设H的统计量。并证明了以下定理。定理若n充分大,则当H为真时(不论H中的分布属什么分布),统计量()总是近似地服从自由度为rk的χ分布,其中r是被估计的参数的个数。于是,若在假设H下算得()有),(rkaχχ则在显著性水平α下拒绝H,否则就接受。注意:在使用χ检验法时要求样本容量n不小于,以及每个inp都不小于,而且inp最好是在以上。否则应适当地合并iA以满足这个要求。例下面列出了个伊特拉斯坎(Etruscan)人男子的头颅的最大宽度(mm)试检验这些数据是否来自正态总体(取)=α。解编写Matlab程序如下:clcx=mm=minmax(x)求数据中的最小数和最大数hist(x,)画直方图fi=length(find(x<)),length(find(x>=x<)),length(find(x>=x<)),length(find(x>=x<)),length(find(x>=x<)),length(find(x>=x<)),length(find(x>=))各区间上出现的频数mu=mean(x),sigma=std(x)均值和标准差fendian=,,,,,区间的分点p=normcdf(fendian,mu,sigma)分点处分布函数的值p=diff(p)中间各区间的概率p=p(),p,p()所有区间的概率chi=(fi*p)^(*p)chisum=sum(chi)皮尔逊统计量的值xa=chiinv(,)chi分布的分位数求得皮尔逊统计量chisum=)()(==χχ故在水平下接受H即认为数据来自正态分布总体。偏度、峰度检验(留作习题)其它非参数检验Matlab还提供了一些非参数方法。Wilcoxon秩和检验在Matlab中秩和检验由函数ranksum实现。命令为:p,h=ranksum(x,y,alpha)其中xy可为不等长向量alpha为给定的显著水平它必须为和之间的数量。p返回产生两独立样本的总体是否相同的显著性概率h返回假设检验的结果。如果x和y的总体差别不显著则h为零如果x和y的总体差别显著则h为。如果p接近于零则可对原假设质疑。例某商店为了确定向公司A或公司B购买某种产品将BA,公司以往各次进货的次品率进行比较数据如下所示设两样本独立。问两公司的商品的质量有无显著差异。设两公司的商品的次品的密度最多只差一个平移取=α。A:B:解分别以BAμμ、记公司BA、的商品次品率总体的均值。所需检验的假设是BAHμμ=:BAHμμ:Matlab实现如下:a=b=p,h=ranksum(a,b)求得p=h=表明两样本总体均值相等的概率为并不很接近于零且h=说明可以接受原假设即认为两个公司的商品的质量无明显差异。中位数检验在假设检验中还有一种检验方法为中位数检验,在一般的教学中不一定介绍,但在实际中也是被广泛应用到的。在Matlab中提供了这种检验的函数。函数的使用方法简单下面只给出函数介绍。signrank函数signrankWilcoxon符号秩检验p,h=signrank(x,y,alpha)其中p给出两个配对样本x和y的中位数相等的假设的显著性概率。向量xy的长度必须相同alpha为给出的显著性水平取值为和之间的数。h返回假设检验的结果。如果这两个样本的中位数之差几乎为则h=若有显著差异则h=。signtest函数signtest符号检验p,h=signtest(x,y,alpha)其中p给出两个配对样本x和y的中位数相等的假设的显著性概率。x和y若为向量二者的长度必须相同y亦可为标量在此情况下计算x的中位数与常数y之间的差异。alpha和h同上。习题十试用偏度、峰度检验法检验例中的数据是否来自正态总体(取=α)。下面列出的是某工厂随机选取的只部件的装配时间(分):,,,,,,,,,,,,,,,,,,,。设装配时间的总体服从正态分布是否可以认为装配时间的均值显著地大于(取=α)?表分别给出两个文学家马克吐温(MarkTwain)的八篇小品文及斯诺特格拉斯(Snodgrass)的篇小品文中由个字母组成的词的比例。表马克吐温斯诺特格拉斯设两组数据分别来自正态总体且两总体方差相等。两样本相互独立问两个作家所写的小品文中包含由个字母组成的词的比例是否有显著的差异(取=α)?

用户评论(0)

0/200

精彩专题

上传我的资料

每篇奖励 +2积分

资料评价:

/12
0下载券 下载 加入VIP, 送下载券

意见
反馈

立即扫码关注

爱问共享资料微信公众号

返回
顶部