第四章地理学研究中的概率函数和统计假设检验计量地理学用地理系统要素的数值来表示地理事物的特征和性质。但由于地理系统是多级、多要素的复杂系统,目前还不能从数量上完全把握地理系统要素确定性的变化规律,通常把地理系统要素视为具有一定的随机性质,这就要采用概率论与数理统计作为地理学研究的重要技术。由于概率论是统计分析的基础,本章着重结合地理实际问
题
快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题
,阐述概率分布函数、统计假设检验和方差分析等在地理学研究中的应用。第四章地理学研究中的概率函数和统计假设检验§1地理学中的概率函数一、地理数据离散型分布如果地理数据ξ可以取一些离散的数值xk(k=1,2,..),对应的概率p(ξ=xk)=pk即为该地理数据的概率分布。随机地理数据的概率分布中,最常见的是二项分布和泊松分布。1.二项分布若离散型随机变量ξ取值为0,1,2,...,n,且其中,0<p<1,p+q=1。则有ξ服从二项分布。第四章地理学研究中的概率函数和统计假设检验二项分布实例(1)假设有一幅相当大的地图,被分割成若干正方形,其面积与总面积相比很小。在该区内森林的发生假定为随机现象,即每一个正方形内有森林的概率相等,并假定任一正方形的特性与其他正方形的特性互为独立,更进一步假定全区域为半森林。因此任一正方块上有森林的概率为0.5。现在假定有n个正方块可随机选择,问从n个正方块中恰好抽取r为有森林的概率为多少?很显然这个例子是一个伯努利概型(试验),抽出的有森林的正方块的个数r符合二项分布,易知其概率为(p=q=0.5):第四章地理学研究中的概率函数和统计假设检验(2)某地理区域的农业收成与降水量有直接关系,年降水量小于500毫米会引起农业歉收;若连续两年降水量小于500毫米会造成一定程度的灾情。从以往的资料分析出年降水量小于500毫米的概率为20%,问今后两年内出现灾情、歉收及丰收的概率各为多少。根据题意,易知这是一个典型的二项分布问题,p=0.2,q=0.8,n=2该地区今后两年灾情、歉收、丰收的概率计算如下:灾情概率为歉收概率为丰收概率为第四章地理学研究中的概率函数和统计假设检验(3)研究某城市的天气情况,考虑两种天气情况:晴天和阴雨天。据统计,该城市每天晴天的概率为50%,阴雨天的概率为50%。试问,在5天时间中,出现0、1、2、3、4、5天晴天的概率为多少?根据题意易知,这也是一个典型的二项分布问题,p=q=0.5,n=5。由二项分布的概率公式计算可知:第四章地理学研究中的概率函数和统计假设检验2.泊松分布设某城市共有n辆汽车,设在单位时间内经过某路口平均汽车辆数为λ,λ<<n,现在要求单位时间内过路汽车辆数ξ的概率。根据泊松定理,其概率为p(ξ=k)=λk×e-λ/k!这就是所谓的泊松分布。第四章地理学研究中的概率函数和统计假设检验泊松分布实例(1)假定许多商店分布于整个区域,其平均密度为每一正方形m点,如图4-1所示,区域共分为30个正方形,其密度为1.37。现在要求一个正方形恰好含有x个点的概率?根据题意,这是一个典型的泊松分布问题。其概率服从泊松分布p=λx×e-λ/x!(其中,λ=1.37)。第四章地理学研究中的概率函数和统计假设检验(2)某地区100年内洪水发生次数如下表所示:试计算该地区一年之内发生0-5次洪水的概率。第四章地理学研究中的概率函数和统计假设检验(3)自1874-1972年99年间,上海夏季(5-9月)共发生暴雨275次,每年夏季共有153天,则每天发生暴雨的概率为p=275/99×153≈0.018试求一个夏季发生k次暴雨的概率pk。根据题意,易知这是一个典型的泊松分布问题。pk=λk×e-λ/k!其中λ=np=2.8。第四章地理学研究中的概率函数和统计假设检验地理学中有很多地理现象在时空上符合泊松分布,如:人口密度分布、城市交通中的客流分布、若干城区中商店个数的分布等。例如书中63页的例题:对上海某公共汽车站的客流进行调查,统计了某天上午10:13至11:47左右,每隔20秒钟来到的乘客批数,共得230个记录,分别计算了来到0批,1批,2批,3批,4批及4批以上乘客得时间区间的频数,结果表明实际乘客批数的频率与理论的泊松分布符合的很好。(请计算结果并验证,参数λ自行计算)第四章地理学研究中的概率函数和统计假设检验二、地理数据连续型分布在地理事物中,有的随机变量ξ,其可能的取值可以是任意实数或连续地充满一个区间,这样的随机变量称为连续型随机变量。为研究连续型随机变量,需引进随机变量的概率密度函数p(x)与分布函数F(x),具体性质可参考书上的说明,需注意两者之间存在如下关系:而随机变量分布区间的概率,一般用分布函数求解比较简便。第四章地理学研究中的概率函数和统计假设检验连续型随机变量中最常见的是服从正态分布的变量。在水文、气象及许多地理要素的统计中,正态分布有重要作用。例如在水文测量中,当测量水位、流量、流速、含沙量等水文要素时,测量误差就是个连续型随机变量。一般认为测量误差近似服从正态分布。正态分布的密度函数为:其中m、σ(>0)为两个参数,分别为随机变量总体的均值与
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
差。这种正态分布也简记为N(m,σ2)。特别是当m=0、σ=1时,得其分布为N(0,1),称该随机变量服从标准正态分布,其分布函数已经制成了表,实际应用中只要查表就可以了。第四章地理学研究中的概率函数和统计假设检验对于非标准正态变量,求解其落在任意区间(a,b)上的概率,具体步骤如下:(1)许多实际问题,总体的均值和标准差,可用样本的平均值和标准差来分别估计,具体办法可参考书上公式(建议:标准差的估计采用书中第二章的公式)。(2)为了便于查表对资料进行标准化处理。所谓“标准化”就是将随机变量x的所取值减去它的平均数m,再被它的标准差σ除之,而得到一个新的随机变量u=(x-m)/σ,而u服从标准正态分布,被称为标准化正态变量。第四章地理学研究中的概率函数和统计假设检验(3)根据标准化后的u值查表即得到x在任意区间(a,b)上的概率p(a<x<b)=p((a-m)/σ<u<(b-m)/σ)=p(u1<u<u2)=φ(u2)-φ(u1)其中,u1=(a-m)/σ,u2=(b-m)/σ,φ(u2)、φ(u1)可通过查标准正态分布表获得。例如:设x为N(m,σ)。求p(|x-m|<σ)。解:p(|x-m|<σ)=p(-σ<x-m<σ)=p(-1<(x-m)/σ<1)=φ(1)-φ(-1)=φ(1)-[1-φ(1)]=2φ(1)-1=0.6827。与此类似,可知p(|x-m|<2σ)=95.45%,而p(|x-m|<3σ)=99.73%,由此认为随机变量的取值几乎总是落在m两侧3σ的范围之内,落在其外的概率几乎为零,被称为小概率事件。第四章地理学研究中的概率函数和统计假设检验地理数据正态分布的计算实例:(1)已知西北某地月均温是服从正态分布,其中2月平均气温m=-14.3℃,标准差σ=3.5℃,今要求p=(-15.4℃≤T<-13.2℃)的数值。利用前面所述计算步骤,即可得到概率值为0.2466。(2)假设某地年降水量x服从正态分布,平均值m=1020毫米,标准σ=215毫米。计算年降水量小于500毫米的概率及这种干旱情况的重现周期。利用前面所述计算步骤,即可得到概率值为0.008,这种干旱情况的重现周期为125年。第四章地理学研究中的概率函数和统计假设检验除了正态分布以外,地理数据还存在对数正态分布、伽马分布(皮尔逊第Ⅲ型分布)、x2分布、指数分布等。其概率密度函数的基本形式,可参考书中的说明。在此,要求大家对这些形式有初步的了解,在将来需要时,能利用参考资料进行计算。第四章地理学研究中的概率函数和统计假设检验§2地理学研究中的统计假设检验主要是在地理学研究中,应用统计推断技术研究对于母体的概率分布的推定与一般统计假设的检验。这在地理学研究实际工作中经常会遇到。例如:某地的气温、降水、径流量、某污染物浓度、某种作物的年产量等地理要素是否服从正态分布?两相邻地区的某地理要素平均值有无显著差异等等。诸如此类的问题都需要对未知母体的参数或分布情况先作出某种假设,再选取适当的统计量,然后根据实测的样本资料,对所作的假设进行检验,从而判断原假设是否正确,这就是统计假设检验的问题。第四章地理学研究中的概率函数和统计假设检验一、空间类型的抽样
设计
领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计
在地理数据的统计中,把准备加以观测的一个满足指定条件的地理要素的集合,叫做母体,它是指研究对象的某些特征值的总体。母体中的要素可以是有限的,例如某地区在过去10年内的每年最高温度就构成了一个有限的母体;母体中的元素也可以是无穷的,例如某河流在将来无限多的年份里的年平均径流量构成一个无穷母体。从母体中抽出的一部分个体,称为样本。从母体中取出部分个体的过程,称为“抽样”。要想使样本作出对母体的推断,抽样过程必须力求样本对母体具有很好的代表性。第四章地理学研究中的概率函数和统计假设检验在地理学研究中,空间类型的抽样,通常有如下几种:1.随机抽样随机抽样是指母体元素均有同等机会被选取。2.系统点抽样法其过程是持续性的和次序性的处理全部母体元素集合,诸如沿方形的一列或坐标点的一线,这样抽样以随机选取一点或一个方形开始,然后按原定
计划
项目进度计划表范例计划下载计划下载计划下载课程教学计划下载
选择其余样本,多用于土地利用问题。3.分层区域抽样法假设区域被划分成许多正方形,而每一正方形包含一组点的集合,这就相当于一个区域的分层。例如:在调查大城市第一代移民家庭数的抽样上,首先将城市按与市中心的距离加以分区,然后在各区抽样。第四章地理学研究中的概率函数和统计假设检验4.阶梯抽样法某些研究中可逐次加强抽样。比如首先在一省中随机选取一个或一个以上的县,然后在该选出的县内再抽取许多方形,诸如镇区等。5.横截线法即在母体所在的空间区域上,随机选择一条横截线,对落在其上的母体元素进行抽样。第四章地理学研究中的概率函数和统计假设检验二、抽样分布自样本资料计算而来的统计量,各种样本间其数值会有差别。但经过研究证明,根据母体的情况,样本的统计量符合一定的概率密度分布,相应的概率密度函数被称为抽样分布。在计量地理学中,比较重要的抽样分布有三种:X2-分布、t-分布与F-分布。第四章地理学研究中的概率函数和统计假设检验1.X2-分布设有一标准正态变量z,即z服从N(0,1),(z1,z2,..zn)为该分布的样本值。则其平方和(z12+z22+...zn2)的统计量,称为X2,其分布即为自由度为n的X2分布。2.t-分布(Student分布)设随机变量ξ与η相互独立,且ξ服从N(0,1)分布,而η=sqrt(x2/n)(x2是服从自由度为n的X2分布的随机变量)。则随机变量t=ξ/η是自由度为n的t-分布(或称学生分布)。3.F-分布若F=ξ/η,其中ξ与η相互独立,且ξ=x12/f1,η=x22/f2,x12与x22分别为自由度为f1、f2的X2变量,则称变量F服从第一自由度为f1,第二自由度为f2的F-分布。这三种抽样分布在计量地理学的统计假设检验中,具有广泛的应用。第四章地理学研究中的概率函数和统计假设检验三、假设检验在地理学的概率问题研究中,经常会碰到如下问题:根据理论分析或者前面工作的结果,认为某个地理随机变量的概率分布或者相应的统计量应该属于某种情形,现在通过抽取样本来检验这个假设。例如:假设某地理区某物质的污染浓度服从正态分布N(m0,σ02),由以前的观测知道m0=56,σ0=20。现有一台新型号的仪器,用它对该区进行测定。抽测了41个点,其平均数~x=61.1,标准差S=20。要问用此仪器测出的结果是否合乎要求(如果合乎要求说明该仪器可以使用)。第四章地理学研究中的概率函数和统计假设检验从概率统计的角度来看,这个问题可以这样陈述:从新仪器的观测总体中抽取了一个容量为41的样本,来推断新仪器的观测平均值m是否等于m0。这相当于先做一个假设H0:m=m0,然后抽取子样x1,x2,...,x41,来推断m=m0是否成立。要清楚明白的回答“假设是真还是假”是困难的,因为在数理统计中,一切结果都只是概率的结果。为此,引进显著性水平的概念。预先指定一个概率(通常非常小)α,分析该假设为真,得到样本的概率是大于还是小于α?如果小于,则认为不能观察到该结果,因而拒绝假设。如果大于,则不能否定假设。其中α称为“显著性水平”。显著性水平根据实际可选择0.01,0.05,0.1。第四章地理学研究中的概率函数和统计假设检验在假设检验中,一方面可应用小概率原理,即在指定的随机试验中,某事件出现的概率非常微小,就可以认为在一次试验中此事件是不可能出现的。另一方面还可应用“反证法”思想,即先假设对某一个问题的看法成立,然后再从假设出发,得出关于样本的一些结论,运用合适的、已知其分布的统计量,通过查表确定其临界值。再将样本中得到的相应的统计量,将两者进行比较。根据比较的结果对假设作出拒绝或者其他判断。第四章地理学研究中的概率函数和统计假设检验假设检验的一般步骤可归纳如下:(1)根据实际地理问题的需要,提出一个待检验的假设,记做H0;(2)找出检验H0的适当的统计量,使得在假设成立时,其分布已知;(3)给定适当的信度或显著性水平α,由其和统计量的分布查表定出临界值;(4)根据样本的实测数据计算出统计量的值,并与临界值比较,从而对原假设H0拒绝与否作出判断。第四章地理学研究中的概率函数和统计假设检验下面学习统计假设检验的具体实例:(一)两个区域方差的比较设有两个地理区域,其样本分别为x11,x12,...,x1n1与x21,x22,...,x2n2,它们分别独立取自正态母体N(m1,σ12)及N(m2,σ22),其中m1,m2未知。要检验假设H0:σ12=σ22是否成立。此时引入统计量F=s12/s22试图通过比较两样本方差以推断二母体方差有无显著性差异。两个方差之比接近1时,说明两者相近,而与1相差很大时,则两者差异较大。根据研究,在假设为真时,F服从第一自由度为n1-1,第二自由度为n2-1的F分布,记为F(n1-1,n2-1)。根据给定信度的F临界值表,查出临界值,并与样本的F统计量进行比较,以判断假设是否为真,即两个母体的方差是否相等。第四章地理学研究中的概率函数和统计假设检验F分布第四章地理学研究中的概率函数和统计假设检验例题1:某地1月平均气温分别为-12℃,-14℃,-17℃,-15℃,-13℃,-9℃,-19℃,-17℃,-17℃,-14℃,-16℃。7月平均气温为21℃,22℃,22℃,21℃,23℃,24℃,23℃,21℃,21℃,21℃,21℃。问这两个月的方差有无明显差异(α=0.10)。计算步骤:第一步,计算两个样本的方差分别为s12=8.0,s22=1.2;第二步,计算得到F统计值为6.67;第三步,查第一、第二自由度为10,显著性水平为0.05的F分布临界值表,得到临界值F0.05为2.98;第四步,比较F统计值与F0.05,可知F统计量大于相应显著性水平下的临界值,小概率事件发生,因此拒绝两母体方差相等的假设。第四章地理学研究中的概率函数和统计假设检验例题2:根据地震记录,得到北京两个地点的岩石P波的波速如下表:试比较周口店和下花园这两组来自不同正态母体的资料的方差是否有显著差异(α=0.05)第一步,作出假设H0:两个母体方差相等;第二步,由抽样结果计算出两者的方差分别为0.0132和0.0038,计算得F统计量为3.47;第三步,查F分布的临界值表,近似取F0.025为F0.01与F0.05的平均值为8.02,由于F=3.47小于8.01,故不能拒绝原假设,无法认为两者有显著差异。第四章地理学研究中的概率函数和统计假设检验(二)两个区域平均数的比较设有两个地理区域,其样本分别为x11,x12,...,x1n1与x21,x22,...,x2n2,它们分别独立取自正态母体N(m1,σ12)及N(m2,σ22),其中已知σ12=σ22=σ2。要检验假设H0:m1=m2是否成立。假设等价于H0:m1-m2=0计算如下的统计量:在假设为真时,u统计量服从N(0,1)分布。对于给定的信度α,查正态分布表,得u0,再由实测数据计算出u统计量,当|u|>u0时,则拒绝原假设,认为两个母体的均值存在显著差异。第四章地理学研究中的概率函数和统计假设检验例题:在某地理区域取得169个某要素的地理数据,算得平均数~x1=31.7,标准差s1=2.5。又在相邻的另一地理区域,测得99个数据,算得平均数~x2=28.8,标准差s2=2.6。问两个地理区域可否看成同一类型(同一母体)(α=0.05)。已知两地区地理要素服从正态分布,两区域的方差可看成变化不大,以如下u统计量中的σ2代替。作统计量在假设H0为真时,u近似服从N(0,1)分布,将样本值带入计算得u=9.06。而相应的临界值u0=1.96,故应拒绝原假设,两者差异显著。第四章地理学研究中的概率函数和统计假设检验t检验——对于两个不同母体的均值的检验,利用u统计量进行检验需要知道每个母体的方差,但实践中总体的方差是不知道的,这时候若要进行相对严谨的检验,需要用如下的统计量来代替方差:其中,s1*=n1s12/(n1-1),s2*=n2s22/(n2-1),作出统计量如下:在H0为真时,该统计量服从自由度为n1+n2-2的t分布,对于给定的信度,可查相应的t分布表求出临界值t0,若|t|>t0时,则拒绝原假设。第四章地理学研究中的概率函数和统计假设检验例题1:太平洋南千岛群岛1940年与1953年(地震后)深层海水的相对密度如下表。现在问1953年发生地震后,地震对海水密度是否起显著影响(α=0.05)?通过计算得到t统计量为5.58,对于给定的信度,查t分布表,可得自由度为8的临界值为t0=2.306,由此可拒绝原假设,即认为地震对深层海水密度有显著影响。第四章地理学研究中的概率函数和统计假设检验例题2:从某锌矿的东西两支矿脉中各抽取了样本容量为9与8的子样,分析计算后得其子样含锌(%)平均数及方差如下:东支:~x1=0.230,s12=0.1337西支:~x2=0.269,s22=0.1736设东西两支矿脉的含锌量都服从正态分布,问东西两支矿脉含锌量的平均数是否可视为一样(α=5%)这是一个由两样本来检验两个总体的均值是否一致的问题,两总体的方差未知。该问题需用t检验法求解。计算可得,t=-0.15,而相应的临界值t0=2.131,易知原假设成立,即可认为两支矿脉含锌量的平均数一样。第四章地理学研究中的概率函数和统计假设检验(三)两个以上地理区域平均数的比较两个以上地理区域平均数的比较,有一个更有力的统计分析形式,即方差分析,它是两个母体参数假设检验的推广。例1:在某地区内已发现五处灰岩露头,但还不能确定确定是否把它划归为一个岩层,如果以岩层的含砂量为指标,五处各取4块样品,通过测定得到下表4-6数据:第四章地理学研究中的概率函数和统计假设检验分析该表数据发现,所取样品都有差异。由同一露头所取的四个样品中,含砂量的值不相同,这个差异仅是由抽样所造成的随机误差;另一方面,不同露头所取的样品,含砂量的平均值也有差异,这个差异除了随机因素造成的误差外,还可能是由于不同露头对含砂量的影响所造成的,是哪种因素主要影响了这种误差,将最终左右上面问题的结论:即五处露头是否可划为同一岩层。为此,需要进行进一步的方差分析。第四章地理学研究中的概率函数和统计假设检验如果我们找到合适的方差描述由于露头不同而产生岩层含砂量的差异,即组间方差;同时又找到了组内方差,用以描述同一露头由于随机因素的影响而造成岩层含砂量的差异。比较二者,如果组间方差显著大于组内方差,则认为组间差异主要不同露头的影响造成;否则,则认为含砂量与露头无关。这就是方差分析的基本思想。第四章地理学研究中的概率函数和统计假设检验一般而言,设因子A有n个水平,记为A1,A2,...,An,在每一种水平下,作k次试验(即对每种水平取容量为k的一个样本,则共有n个容量为k的样本),其结果如下表所列:第四章地理学研究中的概率函数和统计假设检验我们的目的是在于考察因子A对试验的指标有无显著影响。为了解决这个问题,把因子A的n个水平看作n个正态母体,各母体的数学期望mi(i=1,2,...,n)的不同,体现了因子所取的不同水平所引起的条件误差。各母体的方差σi2(i=1,2,...,n)在实际问题中,常常认为是相同的。从而A1,A2,...,An是n个服从相同方差的正态分布N(mi,σ2)(i=1,2,...,n)。因子A对试验有无影响的问题,实际上就是检验假设H0:m1=m2=...=mn是否成立。因~xi和~x分别表示第i个水平的样本平均数和数据的总平均数,即第四章地理学研究中的概率函数和统计假设检验全部观测数据总的差异,用每个观测值与总平均之差的平方和表示:称其为总的离差平方和。第四章地理学研究中的概率函数和统计假设检验上式第一项表示各组观测数据与组内平均数之差的平方和,反映了随机误差的大小,简称组内平方和,用Se表示;第二项是各组的平均数与总平均数之差的平方和乘以k,它反映了由于因子A所取的水平不同而引起的差异,称为组间平方和,用SA表示。如果假设H0成立,即因子A引起的所用不显著,则组间平方和SA就很小,因此SA/Se就应该比较小,反之该比值就比较大。在原假设H0成立的条件下,统计量服从第一自由度为n-1,第二自由度为n(k-1)的F分布。对于给定的信度α,由F分布表可查出自由度为n-1,n(k-1)的临界值Fα,这是一个单侧的F检验问题。如果F>Fα,则否定原假设H0,说明因子A对指标起显著影响。否则,接受原假设。第四章地理学研究中的概率函数和统计假设检验总结上面分析,可列出方差分析表如下:利用上面查出的临界值Fα与表中计算出的观测资料的F统计值进行比较,可得出最终结论即拒绝或接受原假设。第四章地理学研究中的概率函数和统计假设检验对于前面例题中的5个露头的含砂量,即可利用上面的方差分析表的形式进行计算,并最终得到检验结论如下:第四章地理学研究中的概率函数和统计假设检验例2:在研究海岸地貌时,考察海岸的五个相邻的海岸段,分别记作A1,A2,A3,A4,A5,今在每个海岸段的海滩内各取5个样品,并在每个样品中随机采集16-32mm粒径的砾石20块,统计其中含燧石的数目如表4-9所列,问由此五个海岸段内采集的样品有无显著差异(α=0.05)?第四章地理学研究中的概率函数和统计假设检验通过计算可得到五个海岸段砾石样品含燧石数目的方差分析表4-10:第四章地理学研究中的概率函数和统计假设检验(四)适合性检验1.问题的提出(利用样本估计未知的总体分布)上述各种假设检验几乎都是在正态总体的假设下进行的,但在许多实际问题中,事先对总体分布是一无所知的。通常用第二章所讲的
方法
快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载
,通过抽样以搜集大量数据经整理作出频率分布直方图,这样大体可看出分布的情况。但由于抽样的随机性和子样容量的有限性,作出的频率直方图与总体分布概率密度曲线是有偏差的。此外,地理学中有很多地理要素并不是服从正态分布,如:某些矿床中有用元素的品位、人口密度的分布等,甚至还有一些地理要素是离散型随机变量,如:一定年份中出现旱情的概率、一定地理区域内商店的分布等,还有一些地理要素属于定性变量,如:某地区的民族、宗教等。这些问题都需要适合性检验的方法来进行检验。第四章地理学研究中的概率函数和统计假设检验2.适合性检验的思路设母体遵从的分布函数为F(x),取自母体的样本为x1,x2,...,xn,现在要用该样本来检验假设:H0:F(x)=F0(x)其中,F0(x)为某个给定的分布函数。第二章中已经介绍过数据分组记录作直方图的方法。通过比较分组记录各区间的频率和概率,便可大致了解实测数据分布和原假设中分布的符合程度。所以,我们利用子样对总体分布进行检验时,自然想到利用各区间中频率或概率的实测与理论的差异来构造统计量。第四章地理学研究中的概率函数和统计假设检验3.适合性检验的具体步骤具体作法如下:(1)把样本值x1,x2,...,xn出现的范围,划分为k段:[b0,b1),[b1,b2),...,[bk-1,bk],且每段至少含有5个以上的样本值(区间可等分,也可不等分)。(2)求出每个区间[bi-1,bi)内的频数ni,并求出各段的频率fi=ni/n。(3)算出pi=F0(bi)-F0(bi-1),它表示当H0为真时,随机变量ξ出现在该区间的概率。(4)利用ξ落入区间[bi-1,bi)中频率与概率之差(ni/n-pi)来代表第i个区间上频率直方图与概率密度曲线的偏差,并构造统计量第四章地理学研究中的概率函数和统计假设检验其中:k为地理数据分组的组数,ni为各组观测次数,pi为各组理论概率,npi为各组理论次数。前人研究证明,无论F0(x)为何种分布,在原假设H0成立,且n为充分大时,此统计量近似服从自由度为k-1的X2分布。如果F0(x)中有r个参数,它是通过子样估计得到的,则该统计量的X2分布的自由度为k-r-1。(5)对于给定信度α,可由X2分布表按自由度k-1(或k-r-1)查出临界值X2α,再由样本计算出统计量X2。比较两者:若X2≥X2α,则拒绝原假设H0,否则接受原假设。第四章地理学研究中的概率函数和统计假设检验4.适合性检验的实例例:有上海1873-1972年降水资料,问是否服从正态分布?具体作法如下:第四章地理学研究中的概率函数和统计假设检验第一步:分组降水资料以100mm为组距,可分为12组。但有的组次数太少,可以并为7组,700-900,900-1000,1000-1100,1100-1200,1200-1300,1300-1400,1400-1900。第二步:参数估计(计算平均数和标准差)平均数m=1161.5标准差S=229.4第三步:计算理论次数计算u=(Ri-m)/S,查正态分布表φ(u),计算npi=nφ(ui+1)-nφ(ui)第四章地理学研究中的概率函数和统计假设检验第四步:计算X2值计算由表4-15给出。第四章地理学研究中的概率函数和统计假设检验第五步:查临界值X2α查自由度为f=k-r-1=7-2-1=4,α=0.05的X2分布表,可得X2α=9.49。第六步:比较X2和X2αX2=8.66<X2α=0.05=9.49由于前者小于后者,于是接受原假设,即上海市百年降雨量基本上符合正态分布。5.适合性检验的Excel操作演示(见操作演示过程)第四章地理学研究中的概率函数和统计假设检验6.适合性检验在非正态分布检验问题中的应用例:分析上海市的农业结构,给出上海市、上海县和崇明县1983年的农业产值结构,要分别检验两个郊县的农业产值结构同全市的农业产值是否有显著差异。详见Excel操作演示。