首页 统计学整理资料2

统计学整理资料2

统计学整理资料2第五章抽样与抽样估计本章教学要求和重点理解抽样调查中的基本概念；理解抽样分布的涵义；理解样本统计量的分布与总体分布之间的关系；掌握抽样估计和样本容量确定的方法；理解分层抽样、等距抽样、整群抽样的含义、特点和使用场合。第一节抽样中的基本问题一、抽样中的基本概念（一）概念：抽样调查是按照随机原则从全部研究对象中抽取一部分单位进行观察，并依据获得的数据对全部研究对象的数量特征做出具有一定可靠性的估计和判断，以达到对现象总体认识的一种方法。（二）特点：1、它是按照随机原则从总体中抽取样本。2、它是由部分推算整体的一种方法。...

第五章抽样与抽样估计本章教学要求和重点理解抽样调查中的基本概念；理解抽样分布的涵义；理解样本统计量的分布与总体分布之间的关系；掌握抽样估计和样本容量确定的方法；理解分层抽样、等距抽样、整群抽样的含义、特点和使用场合。第一节抽样中的基本问题一、抽样中的基本概念（一）概念：抽样调查是按照随机原则从全部研究对象中抽取一部分单位进行观察，并依据获得的数据对全部研究对象的数量特征做出具有一定可靠性的估计和判断，以达到对现象总体认识的一种方法。（二）特点：1、它是按照随机原则从总体中抽取样本。2、它是由部分推算整体的一种方法。3、它是运用概率估计的方法。4、抽样调查的误差可以是先计算并加以控制。（三）优越性：1•经济性2•时效性3•准确性4•灵活性（四）作用：1、抽样调查能够解决全面调查无法或难以解决的问题。2、抽样调查可以补充和订正全面调查的结果。3、抽样调查方法可以用于生产过程中产品质量的检查和控制。4、抽样调查方法可以用于对总体的某种假设进行检验，以判断这种假设的真伪，决定行动的取舍。二、抽样调查中的几个基本概念（一）总体和样本1、总体：也称全及总体，指根据研究目的确定的所要研究的同类事物的全体，它是由所研究范围内具有某种共同性质的全体单位组成的集合体。2、样本：又称子样，它是全部总体中随机抽取出来，作为代表这一总体的那部分单位组成的集合体。（二）参数和统计量1、参数：根据全及总体各个单位的标志值或标志特征计算的、反映总体某种属性的综合指标，称为全及指标。2、统计量：根据样本各单位标志值或标志特征计算的，反映样本某种属性的综合指标称为抽样指标或统计量。（三）样本容量和样本个数1、样本容量：是指一个样本所包含的单位数。2、样本个数：又称为样本可能数目。是指从一个总体中可以抽取的样本个数。（四）重复抽样和不重复抽样1、重复抽样：又称为重置抽样，它是这样来安排的，从总体N个单位中要随机抽取一个容量为n次试验构成一个样本。每次抽出一个单位把结果登记下来又放回，重新参加下一次的抽选。2、不重复抽样：又称为不重置抽样，它是这样安排的，从总体N个单位中要抽取一个容量为n的样本。但每次抽选一个单位就不再放回参加下一次抽选，因此不重置抽样有这些特点。三、概率抽样与非概率抽样（一）概率抽样：也称为随机抽样，是指按照随机原则抽取样本。其基本的组织方式有；简单随机抽样，分层抽样，等距抽样和整群抽样。（二）非概率抽样：也称为非随机抽样，是指从研究目的出发，根据调查员的经验或判断，从总体中有意识地抽取若干单位构成样本。其组织方式有重点调查、典型调查、配额调查、方便抽样等。这种抽样容易产生系统偏差。四、抽样框抽样框是包含全部抽样单位的名单框架。主要形式有单抽样框、区域抽样框、时间表抽样框。五、抽样误差统计调查的误差，是指调查所得结果与总体真实数值之间的差异。在抽样调查中，误差的来源有登记性误差和代表性误差两大类。（一）实际抽样误差：它是指某一具体样本的样本估计值与总体参数的真实值之间的离差。（二）抽样平均误差：它就是样本估计量的标准差，反映所有可能的样本估计值与总体参数的平均差异程度，可以衡量样本对总体的代表性大小。（三）抽样极限误差：它是指一定概率下，样本估计量与总体参数之间抽样误差的可能范围。第二节抽样分布这里必须说明：如无特别声明，我们下面只讨论可重复的简单随机抽样，所得容量为n的样本称为简单随机样本，它满足两个条件：(1)相互独立；(2)每个(=1,2,…，n)都与总体X同分布。一、抽样分布的概念样本指标即样本统计量是一种随机变量，它有若干可能取值(即可能样本指标数值)，每个可能取值有一定的可能性(即概率)从而形成它的概率分布，统计上称为抽样分布。简言之，抽样分布就是指样本统计量的概率分布。分布1、概念：设是独立同分布的随机变量，且每个随机变量都服从标准正态分布，即〜，则随机变量的分布称作自由度为n的c2分布，记为c2(n)。其分布密度为：2、分位数(或临界值)：或称k为c2(n)的分位数，记为k。3、性质：若X服从c2(n)，则均值E(X)=n，方差V(X)=2n。c2分布具有可加性。若XI，X2相互独立，X1〜c2(n1)，X2〜c2(n2),则(X1+X2)〜c2。当ng时，c2分布渐进于正态分布，即c2(n)〜N(n，2n)。它是一个非对称分布。应强调：必须会查c2分布表；另外，c2(n)分布随n的取值不同有不同的曲线。t分布概念：设随机变量X与Y相互独立，而且X~N(0，1)，Y~c2(n)，则称随机变量服从自由度为n的t分布，记作t(n)。其分布密度为：分位数(临界值)：P(t(n)>K)=a记为Kta(n)t1-a(n)=—ta(n)性质：t分布的均值E(t)=0，方差V(t)=n/n—2，(n>2)。t分布是关于t=0的对称分布，且为低峰分布。当ng时，t分布渐进于标准正态分布。应强调，必须会查t分布表。t分布随n的取值不同而对应相应的曲线。F分布概念：设随机变量X和Y相互独立，且分布服从自由度为n1，n2的c2分布，则服从第一自由度为，第二自由度为的F分布，记作：F〜F(nl,n2)。其分布密度为：分位数(临界值)：P(F(n1，n2)>K)=a记为：KFa(n1，n2)。性质：F分布是一个非对称分布。F分布曲线为正偏态，其尾端以横轴为渐进线并趋于无穷。它是一种连续的概率分布，不同的自由度组合有不同的F分布曲线。二、样本平均数的抽样分布总体方差已知时，样本平均数的抽样分布定理1：设总体X〜N(p,o2)，(x1,x2，…，xn)是其一个简单随机样本，则样本平均数~N(p,o2/n)，E()=p,V()=o2/n。定理2：若总体平均数p和方差o2有限，当样本容量n充分大时，无论总体分布形式如何，样本平均数近似服从正态分布N(p,o2/n)。由上面两个定理，根据抽样平均误差的定义，便可知平均数的抽样平均误差的计算公式为：o()=在用此公式计算时，所研究总体的标准差通常是未知的，可用以前的总体标准差代替；在大样本情况下，通常用样本标准差代替。结论：当总体方差已知时，无论抽取的是大样本还是小样本，样本平均数均服从正态分布。总体方差未知，样本平均数的抽样分布当总体方差未知时，用样本方差S2代替总体方差o2,或用样本标准差S代替总体标准差o。则有：定理3：设总体X~N(p,o2),(x1,x2,„,xn)是其一个简单随机样本，样本均值为，样本标准差为S,则统计量结论：当总体方差未知时，如果抽取的样本为大样本，则样本平均数服从正态分布；如果抽取的样本为小样本，则样本平均数服从t(n-1)分布。三、样本比例的抽样分布当从总体中抽出一个容量为n的样本时，样本中具有某种特征的单位数n,服从二次分布，即nl~B(n,p)。且有E(nl)=np，V(nl)=np(l—p)。因而样本比例p=也服从二次分布，且有：E(p)=E()=E(n1)=pV(p)=V()=V(n1)=p(1－p)根据中心极限定理，当n—8，二次分布趋近于正态分布。所以在大样本下，若np和n(l—p)皆大于5,样本比例近似服从正态分布：p〜N[p，Xp(l-p)]由抽样平均误差的定义和V(p)=Xp(1—p)可知，比例的抽样平均误差为：(p)==上式中，p为总体比例，实际计算时通常用以前的总体比例代替或用样本p代替。四、不重复抽样的修正系数前所讲的抽样分布和抽样平均误差的计算公式，都是就重复抽样而言的。可以证明，采用不重复抽样时，平均数和比例的抽样平均误差为：可见，不重复抽样的抽样平均误差公式比重复抽样的相应公式多一个系数这个系数称为不重复抽样修正系数。当N很大时，(其中：n/N为抽样比例)。实际中，当抽样比例很小时，(一般认为小于0.5%)，不重复抽样的抽样误差常采用重复抽样的公式计算。第三节抽样估计的基本方法一、点估计点估计也叫定值估计，就是直接以一个样本估计量来估计总体参数0。其常用的估计方法有以下两种：矩估计法基本思想；由于样本来源于总体，样本矩在一定程度上反映了总体矩，而且由大数定律可知，样本矩依概率收敛于总体矩。因此，只要总体X的k阶原点矩存在，就可以用样本矩作为相应总体矩的估计量，用样本矩的函数作为总体矩的函数的估计量。极大似然估计法基本思想：设总体分布的函数形式已知，但有未知参数0，0可以取很多值，有0的一切可能取值中选一个使样本观察值出现的概率为最大的值作为0的估计值，记作，并称为0的极大似然估计值。这种求估计值的方法称为极大似然估计法。估计量优劣的标准1、无偏性。2、有效性。3、一致性。二、区间估计概念：它是根据样本估计量以一定可靠程度推断总体参数所在的区间范围。步骤：1、抽取样本x1，x2，．．．xn2、找一个抽样分布(只含一个待估计的未知参数)。3、给定置信度1-a，确定置信区间。4、代入观测值就可得到一个具体的区间估计。区间估计的方法：1、总体均值的区间估计总体方差已知时，正态总体均值的区间估计根据样本平均数的抽样分布定理2,若事先给定1-a，可由正态分布表查得临界值，使得在区间(-，)的概率为，从而可得，给定置信度1-a，则有即这就是置信度为1-a的总体均值的置信区间。由前面抽样极限误差的定义可知，样本平均数的抽样极限误差可按如下公式来确定。则总体均值的置信度1-a的置信区间为总体方差未知时，正态总体均值的区间估计根据抽样分布定理3,小样本条件下，如果总体是正态分布的，总体标准差未知而需要用样本标准差S来代替，则随机变量。给定置信度1-a，可查t分布表确定临界值，使t的取值在(一,)的概率等于1-a，即，也即=1-a由此可得总体均值的置信度为1-a的置信区间为：结论：总体方差未知时，在大样本情况下，正态总体均值的区间估计用Z估计量；在小样本情况下，正态总体均值的区间估计用t估计量。在这里，应指出：在对总体均值进行区间估计的基础上，可进一步推断相应的总量指标，即用总体单位数N分别乘以总体均值的区间下限和区间上限，便得到相应总量指标的区间范围。即：2、总体比例的区间估计根据样本比例的抽样分布定理，在大样本下，样本比例的分布趋近于均值为总体比例P,方差为P（1-P）的正态分布，服从标准正态分布，因此，给定置信度1-a，查正态分布表得，样本比例的抽样极限误差为因此，总体比例P的置信度为1-a的置信区间为与总体比例相应的总量指标一一总体中某部分单位总数NP的置信区间为：结论：对于总体比例的区间估计，大样本情况下，用Z估计量。小样本情况下？3、总体方差的区间估计在大样本情况下，样本标准差S的分布近似服从正态分布，所以，总体标准差的置信度为1-a的置信区间近似为：在小样本情况先，若总体是正态分布而其均值和方差未知，则总体方差的置信区间可由x2分布来确定。对于给定的a，查x2分布表确定两个临界值和，使故总体方差62的置信度为1-a的置信区间为：三、样本容量的确定（一）必要抽样数目的概念：它是指为了使抽样误差不超过给定的允许范围至少应抽取的单位数目。（二）必要抽样数目的确定方法：1、样本均值的必要抽样数目的确定方法：（1）在重复抽样下：（2）在不重复抽样下：2、样本比例的必要抽样数目的确定方法：（1）在重复抽样下：（2）在不重复抽样下：（三）影响必要抽样数目的因素主要有以下五个：1、总体方差或总体标准差2、允许误差范围或3、置信度（1-a）4、抽样方法5、抽样组织方式第五节其他抽样组织方式及其抽样估计基本的抽样组织方式除了前面所讲的简单随机抽样外，还有其它三种形式。简单随机抽样。又称纯随机抽样，它是对总体单位不进行任何划分或排队，完全随机地直接从总体中抽取样本单位，使每个总体单位都有完全均等的机会被抽中。（前面做所讲的抽样均属此类）一、分层抽样。又称分类抽样或类型抽样。它是按与调查目的有关的某个主要标志将总体单位划分为若干层（也称类、组或子总体），然后从各层中按随机原则分别抽取一定数目的单位构成样本。二、等距抽样。也称机械抽样或等距抽样。它是先将总体单位按某标志排队，计算出抽样间隔，并在第一个抽样间隔确定一个抽样起点，再按固定的顺序和间隔来抽取样本单位。根据排队标志的性质不同，等距抽样分为无关标志排队等距抽样和有关标志排队等距抽样两种类型。三、整群抽样。也称集团抽样。它是将总体全部单位分为若干部分（每一部分称为一个群体，简称群），然后按随机原则从中抽取一部分群体，抽中群体的所有单位构成样本。第六章假设检验本章教学要求和重点理解假设检验的基本思想和特点；理解假设检验的步骤和假设检验中的两类错误；掌握总体均值、比例和方差的假设检验的具体方法和步骤；理解区间估计与假设检验的关系；理解P值的含义及用途。第一节假设检验的一般问题一、假设检验的意义（一）概念：假设检验是以样本统计量验证假设的总体参数是否成立的一种统计推断方法。（二）种类：1、参数假设检验2、非参数假设检验二、假设检验的基本思想假设检验的基本思想是带有概率性质的反证法。主要有两个特点：第一，假设检验所采用的逻辑推理方法是反证法。第二，合理与否，所依据的是“小概率事件实际不可能发生的原理”。三、假设检验的步骤1、提出原假设和备择假设2、选择适当的统计量，并确定其分布形式3、选择显著性水平a，确定临界值4、作出结论四、假设检验中的两类错误（一）第一类错误（二）第二类错误（三）两类错误的概率a和0的关系第二节总体均值、比例和方差的假设检验一、总体方差已知时对正态总体均值的假设检验设HO：p=p0；Hl：p>p0（或pZip/2或Z〈Za/2），则拒绝H0；反之接受H0。二、总体方差未知时对总体均值的假设检验设H0：p=p0；Hl：p>p0（或pti-a（或tti-a/2或tZ1-a（或ZZ1-a/2或Za20（或a2（或<1-a;>a/2或<1-a/2），则拒绝H0；反之接受H0。第三节假设检验中的其他问题一、区间估计与假设检验的关系（一）主要区别：1、参数估计是以样本资料估计总体参数的真值，假设检验是以样本资料检验对总体参数的先验假设是否成立；2、区间估计求得的是求以样本估计值为中心的双侧置信区间，假设检验既有双侧检验，也有单侧检验；3、区间估计立足于大概率，假设检验立足于小概率。（二）主要联系：1、都是根据样本信息推断总体参数；2、都以抽样分布为理论依据，建立在概率论基础之上的推断；3、二者可相互转换，形成对偶性。二、假设检验中的P值1、假设检验P值的概念：拒绝原假设的最小显著水平称为假设检验中的P值。2、假设检验P值的计算：设g表示检验统计量，具体检验值为C,当H0为真，根据g的具体分布，求P值：左侧检验的P值为：P=P（gC）；双侧检验的P值为：C值靠左：P=2P（gC）g的密度函数为对称的（t分布，标准正态分布）：P=P（|g|〉C）。将给定的显著性水平a与P值比较,可作出检验结论：若P±a，接受HO；P

                    本文档为【统计学整理资料2】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

统计学整理资料2

你可能还喜欢