第七章 假设检验
第一节 假设检验的基本知识
一、假设陈述
1、原假设/虚无假设:用H0表示,常常是根据已有
资料
新概念英语资料下载李居明饿命改运学pdf成本会计期末资料社会工作导论资料工程结算所需资料清单
得出的,稳定、保守的经验性看法,没有充分根据是不会被推翻的。
2、备选假设/研究假设:与原假设对立的假设,用H1表示,经过抽样调查后,获得证据希望予以支持的假设。
二、假设检验的基本原理——小概率原理
小概率原理:一次观察中小概率事件被认为不可能发生;如果一次观察出现了小概率事件,合理的想法应该是否定原有事件具有小概率的说法。
小概率原理在假设检验中的运用:抽取一个样本并计算出检验统计量,如果在原假设成立的条件下这个统计量几乎不可能发生,则拒绝原假设而接受备选假设。反之,如果计算出的统计量发生的可能性不太小,则接受原假设。即在原假设下,检验统计量是小概率事件则拒绝原假设。
例1:某市场有100位摊贩,根据以往统计,其中非本地居民占10%,现随机抽取10人调查,发现5个都不是本地人,则原有统计结果是否成立?
解:H0:100人中10个是非本地人。
计算在原假设成立的情况下,抽取5人都是非本地人的概率:
P= C105 C905/C10010<10-4
可见,出现5名非本地人的结果概率极其小,但一次实验就出现了,所以怀疑原假设的真实性,拒绝原假设。
三、拒绝域与显著性水平
1、显著性水平
,在原假设成立条件下,统计检验中规定的小概率的数量界限,常用的有
=0.10,0.05,0.01。
2、接受域和拒绝域
根据原假设画出统计量的分布,以Z分布为例。如果把拒绝原假设的小概率α事件定在分布的右侧尾部,则右侧面积代表的概率即显著性水平,Zα是临界值。如果检验统计量值Z>Zα,则应拒绝原假设;如Z<Zα,则接受原假设。以Zα为临界值,左边为接受域,右边为拒绝域。也可把α定在左边或两边。
α
接受域 拒绝域
Zα
三、单边与双边检验
1、双边检验
如果拒绝域放在抽样分布的两侧,每侧拒绝域的概率分别为α/2,假设抽样本分布以0为对称,则P(|Z|>Zα/2)= α;双边检验的假设如下:
H0: μ=μ0
H1: μ≠μ0
α/2 α/2
拒绝域 接受域 拒绝域
-Zα/2 Zα/2
如果检验统计量|Z|>Zα/2,则拒绝原假设,否则接受。
2、单边检验
如果拒绝域放在抽样分布的一侧(把α放在一侧),即单边检验。分为右侧单边检验和左侧单边检验。如果P(Z>Zα) =α,需要右侧单边检验,如下:
H0: μ=μ0
H1: μ>μ0
当样本统计量Z>Zα,落入拒绝域,则拒绝原假设,否则接受原假设。
如果P(Z<-Zα) =α,则为左侧单边检验,
H0: μ=μ0
H1: μ<μ0
当样本统计量Z<-Zα,落入拒绝域,则拒绝原假设,否则接受原假设。
四、假设检验步骤
第一步,根据实际问
题
快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题
做出假设,包括原假设和备选假设。
第二步,在原假设成立的情况下确定样本统计量的抽样分布。
第三步,根据已知的显著性水平和抽样分布确定拒绝域和临界值。
第四步,根据样本计算出合适的检验统计量,并根据建立起来的检验
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
,用检验统计值进行判断。若落入拒绝域,则拒绝原假设,反之,接受。
例2:如果原假设为H0: μ=μ0,抽取了一个大样本,写出各种假设形式、统计量和拒绝域。
解:大样本条件下样本均值的抽样分布服从正态分布,选择样本均值标准化后的Z值作为检验统计量,原假设成立情况下Z=
,服从标准正态分布N(0,1)。
(1) 双边检验:
H0: μ=μ0
Z =
拒绝域P(|Z|>Zα/2)= α,查标准正态分布表确定临界值Zα/2
如果|Z|>Zα/2,则拒绝原假设,否则,接受。
(2) 右侧单边检验:
H0: μ=μ0 H1: μ>μ0
Z =
,拒绝域P(Z>Zα) = α,确定临界值Zα,若Z>Zα,则拒绝。
(3) 左侧单边检验:
H0: μ=μ0 H1: μ<μ0
Z =
,拒绝域P(Z<-Zα) = α,确定临界值-Zα,若Z<-Zα,则拒绝。
注意:显著性不同,对同一个检验统计量则会做出不同判断。
五、两种错误
1、第一类错误:弃真的错误
把真当成了假,拒绝了原本真实的原假设。原假设为真时抽到小概率事件的可能性确实存在,即显著性水平,以一次抽取结果为依据作出错误判断的可能性是α。
2、第二类错误:纳伪的错误
把假当成了真,接受了原本错误的原假设。用β表示第二类错误,以均值检验为例,β大小取决于真实μ和原假设的μ0之差,二者越接近,犯错可能性越大。当H0为假,H1是真时,数据落在真实的总体中(即H1的抽样分布图形),这时应该拒绝H0,但如果样本统计量落在H0的接受域,则会犯第二类错误。
α/2 α/2
μ0
拒绝域 接受域 拒绝域
β
μ1
β
μ1
β
μ1
第二节 一个总体参数的检验
一、总体均值的检验(Z检和T检验)
采用什么检验步骤和选择什么检验统计量取决于抽取的样本是大样本还是小样本,还要考虑总体是否服从正态分布,总体方差是否已知等情况。
1、大样本的检验方法
大样本情况下,样本均值抽样分布近似服从正态分布,抽样标准误差为
。将样本均值标准化后的值服从正态分布,所以采用z值作为检验量,即z=
。当总体方差未知时,有z=
。
例2:某市民政局提供的退休金统计
报表
企业所得税申报表下载财务会计报表下载斯维尔报表下载外贸周报表下载关联申报表下载
中,该市养老金人均收入880元,为验证其正确性,随机抽取50位老人进行调查,计算出人均收入871元,标准差21元,请检验民政局统计数据的准确性。(α=0.05)
解:可作以下假设:H0:μ=880, H1:μ≠880
计算检验统计量:z=
=
=-3.03
α=0.05查表得,临界值为z0.025=1.96。由于 |z|=3.03>1.96,所以拒绝原假设。
拒绝H0 拒绝H0
0.025 0.025
-1.96 0 1.96
例3:某个小麦品种平均产量为5200kg/公顷,现对其品种进行改良以期提高产量,为检验改良后效果,随机抽取36块地进行试种,得到样本平均产量为5275kg/公顷,标准差为120,检验改良后的新品种产量是否显著提高。(α=0.05)
解:想知道新品种的平均产量是否大于5200,右侧检验,提出假设:
H0:μ≤5200, H1:μ>5200
计算检验统计量的具体数值:z=
=3.75
z=3.75>z0.05=1.645,所以拒绝原假设。检验结果表明:改良后产量显著提高。
例4:如果对例2中的某市养老金人均收入做区间估计,能否对原假设做出判断?
解:
=871
1.96×21/
=871
5.82
总体95%的置信区间(865.18,876.82)。
如果总体均值是880,那么95%的样本计算出的区间都应包括880,但样本计算出的这个区间没有包括880,即出现了小概率事件,则推翻原假设。
例5:如果真实总体均值为870,求接受原假设时所犯的第二类错误有多大?
解:根据原假设做出样本均值分布图,并求出临界值:
880
1.96×21/
=(874.18,885.82);
β
α/2
870 880
拒绝域 接受域 拒绝域
874.18 885.82
根据真实总体做出抽样分布图,当样本均值在(874.18,885.82)内时,都会接受原假设,犯第二类错误。
计算犯错区域的临界点:z1=
=1.41
Z2=
=5.59
查右侧尾部累积表得P(z>z 2)-P(z>z1)=0.0793,表示:如果真实总体均值为870,那么接受错误的原假设的概率为8%。
2、小样本的检验方法
小样本时,检验统计量的选择与总体是否正态分布,总体方差是否已知有关。总体服从正态分布,方差已知时,即使小样本依然服从正态分布,可按大样本公式检验。
当总体方差未知时,则用样本方差代替总体方差,检验统计量服从t分布,采用t分布来检验总体均值,称为t检验。t=
。
二、总体比例的检验(Z检验)
大样本时,样本比例的抽样分布成正态分布,服从期望值为π,方差为π(1-π)/n的正态分布,将样本比例标准化后得z=
~N(0,1),即总体比例检验时使用的检验统计量。检验方法和步骤与均值检验类似。
例6:某地区成年人中吸烟者75%,经过戒烟宣传后,抽取100为成年人进行调查,63人吸烟,请问戒烟宣传是否收到了成效?(α=0.05)
解:H0:π≥0.75, H1:π<0.75
计算检验统计量:z=
=
= -2.77
由于α=0.05,查表得z0.05=-1.645,z= -2.77<z0.05=-1.645,所以拒绝原假设,可以认为戒烟宣传受到了成效,吸烟者比例比之前有所下降。
三、总体方差的检验(
检验)
对于呈正态分布的总体来说,样本方差的抽样分布服从自由度为n-1的卡方分布。进行卡方检验时使用的检验统计量为
=
。检验方法和步骤与均值检验类似。
例7:某研究人员为了证实6年级学生智商标准差不小于15分,现随机抽取30名学生,其平均智商为105分,方差为196。该样本能否证明其观点(α=0.01)?
解:H0:σ≥15, H1:σ<15
计算检验统计量:
=
=
=25.27
根据α=0.01,查表得
0.99(29)=14.275,
=25.27>
0.99(29)=14.275,所以不能拒绝原假设,即研究人员的观点不能被证实。
由于备选假设包括两种情况,σ=15和σ>15,样本结果支持哪一种?可以再一次进行假设检验。设H0:σ=15, H1:σ>15。 检验统计量不变,
=25.27,而临界值则为
0.01(29)=49.588。
=25.27<
0.01(29)=49.588,所以不能推翻原假设,即接受的原假设只能是σ=15。
第三节 两个总体参数的检验
一、总体均值差异的检验
1、独立样本检验
(1)大样本检验
当样本为大样本时,不管总体是否正态,(
-
)的抽样分布服从于期望值为(μ1-μ2),方差为σ12/n1+σ22/n2的正态分布。(
-
)经过标准化后z=
~N(0,1)。检验方法和步骤与但单总体均值检验类似。
例8:为了比较就近上学和离家远而乘车上学的小学生学习成绩是否有差别,某校从就近上学学生中抽查800名,平均成绩为520分,标准差为40分;从乘车上学学生中抽查1000人,平均505分,标准差50分。问二者学习成绩是否有差别?(α=0.05)
解:设就近上学1,乘车上学为2,
H0:μ1-μ2=0, H1:μ1-μ2≠0
计算检验统计量:z=
=7.04。查表得z0.025=1.96
由于|z|=7.04>z0.025=1.96,因此拒绝原假设,即两类学生成绩有差别。
(2)小样本检验
当两个总体均为正态分布时,双总体均值之差检验类似但总体检验。
第一种情况:总体方差已知。则依然使用大样本检验方法。
第二种情况:两总体方差未知但相等,使用联合方差sp2,两总体均值之差服从自由度为n1+n2-2的t分布,检验统计量t=
~t(n1+n2-2)。
2、配对样本
对于配对大样本,μd=μ1-μ2在1-α置信水平下的置信区间:
。小样本公式为:
(n-1)
,所以,配对样本的检验统计量为z=
~N(0,1)或t=
~t(n-1)。
例9:下表为八位同学使用两份试卷的测试成绩,问两份试卷哪个比较简单?(α=0.05)
1
2
3
4
5
6
7
8
A试卷
86
87
56
93
84
93
75
79
B试卷
80
79
58
91
77
82
74
66
di
6
8
-2
2
7
11
1
13
解:两份试卷哪个比较简单即平均成绩哪个较高。
H0:μA-μB=0, H1:μA-μB≠0
=5.75;sd=
=5.12。检验统计量t=
=
=3.176
查表t0.025 (7)=2.36,由于|t| =3.176>2.36,所以拒绝原假设,两份试卷平均成绩不同。并且可判断μA-μB>0,即A试卷成绩高于B试卷,A试卷难度较小。例10:如果上述样本不是配对而是独立样本,是否还能得出相同结论?
解:需使用方差未知情况下独立小样本公式。计算
=81.625,
=75.875
H0:μA-μB=0, H1:μA-μB>0
计算sp=
=
=11.132
计算检验统计量:t=
=
=1.03
查表t0.05 (n1+n2-2)= t0.05 (14)=1.761,t=1.03 <t0.05 (14)=1.761,所以不能拒绝原假设,不能认为两个试卷难度有显著差异。
可见,同样的数据,来自配对样本和独立样本的检验结果不同,配对样本灵敏度高于独立样本,因为它控制了其它的一些因素。但在现实中不易得到高质量的配对样本,故习惯上采用随机分配的方法来分配样本,排除人为影响。
二、总体比率差异的检验
根据两个样本比例之差的抽样分布,可以得到用于检验两个总体比例之差的统计量:z=
,其中
=
。
由于总体比例未知,用样本比例代替。
例11:有两种生产方法,方法1成本较高而次品率低,方法2成本低但次品率高,现决定对两种方法的次品率进行比较,如果方法1的次品率比方法2低8%以上,则用方法1。先从1和2产品中各随机抽取300个产品,1中有33个次品,2种有84个次品。用α=0.01进行检验,来选择方法。
解:右侧检验:H0:π2-π1≤8%, H1:π2-π1>8%
计算检验统计量:z=
=
=7.9
z=7.9>z0.01 =2.33,拒绝原假设,方法1的次品率远低于方法2达8%以上。
三、两个总体方差之比的假设检验
要检验两个总体方差是否相等,即对其比值σ12/σ22进行推断。通常将原假设与备选假设的基本形式表示成两个总体方差比与1的比较。
H0:σ12/σ22=1即σ12=σ22
H1:σ12/σ22>1 (σ12>σ22);σ12/σ22<1 (σ12<σ22);σ12/σ22≠1 (σ12≠σ22)
确定抽样分布和检验统计量:两样本方差之比服从F分布,F为检验统计量。样本统计量F= s12σ22/s22σ12,当原假设成立即σ12=σ22时,统计量简化为F= s12/s22
拒绝域:右侧检验中为F>Fα;双边检验中为F>Fα/2或F<F1-α/2
方差比检验习惯把s12和s22中较大的放在分子上,使得检验统计量总是大于1,所以无论是单边或者双边检验,拒绝域都在右边。
例12:从AB两个正态总体中分别抽取sA2 =7.14,nA=10的样本和sB2=3.21,nB=8的样本,检验两总体方差有无差异?α=0.10
解:H0:σA2/σB2=1;
H1:σA2/σB2≠1
F= sA2/ sB2=7.14/3.21=2.22;临界值F0.10/2(10-1,8-1)=3.68
由于F=2.22 <F0.05(9,7)=3.68,所以不能拒绝两总体方差相等的原假设。