null第三章 抽样分布及其应用㈡第三章 抽样分布及其应用㈡第一节 二项总体抽样
第二节 检验二项资料的百分数
(针对单个样本百分数和两样本百分数)
第三节 参数的区间估计
第四节 χ2的定义和分布
第五节 次数资料的χ2检验第三章要点提示第三章要点提示 抽样分布及其应用㈡是上一章抽样分布及其应用㈠的延伸,两者构成统计分析方法的基础部分,学习时 :①对于二项总体抽样,要清楚它和上一章单个母总体抽样的联系和区别; ②对于百分数的检验,要注意应用u-test的条件、不符合这些条件时进行连续性矫正的必要性以及标准误的计算方法衍生总体参数的异同点; ③ 参数的区间估计可替代显著性检验,但它比显著性检验挖掘的信息更充分;④掌握依据χ2变量SS/σ2 服从的理论分布进行适合性检验和独立性检验时计算χ2值的方法。
涉及教材内容:第五章第四、五节,第七章第一、二、三节。
作业布置:教材P91 T13、 T14; P173-174 T5、 T7、 T8、 T10。
第一节 二项总体抽样第一节 二项总体抽样一、二项总体参数
本节是针对一类特殊的母总体进行抽
样研究,这类总体内的个体不管有多少个,
都可按某种性状出现与否分为两组,故称
二项总体。将其中出现某种性状的个体的
观察值定为“1”,否则定为“0”。
若已知二项总体的个体有N个,出现
某种性状的概率为p,则其参数计算如下:
μ=Σfy /N = Np/N = p
σ2 = Σf ( y –μ)2/N = Np(1- p) /N = pq
可见二项总体的两个参数 μ,σ2
都由平均数p (即个体出现某种性状的概率)
唯一确定。
二、衍生总体参数
从二项总体中以样本容量 n 进行复
置抽样,根据前述中心极限定理的有
关结论,同样有:
Ӯ或 ~N(μӮ ,σ2Ӯ)且:
μӮ = μ= p,
σ2Ӯ = =σ2 /n = pq/n
Σy或 ~N(μΣy ,σ2Σy )且:
μΣy = nμ= np,
σ2Σy = = nσ2 = npq,
于是:
u = (Ӯ – μӮ ) /σӮ
=
u = (Σy – μΣy ) /σΣy
=第一节 二项总体抽样第一节 二项总体抽样 例3.1 假定调查某地全部棉株受盲椿危
害的情况,发现704株受害,且 N = 2000,
得μ= 0.352,σ= 0.4776;现从中以n = 200
抽取一个样本,知受害株数 = 74,受害
率 = 0.37,试计算获此抽样误差的概率。
解 依题意应求P( | –p|≥0.018)
∵ = 0.4776÷√200 = 0.034
∴原式 = P(|u| ≥ 0.53)= 2 P(u ≤ - 0.53)
= 2 Φ(- 0.53) = 2×0.2981= 0.5962
依题意也可求P( | – np|≥3.6)
∵ = 6.754
∴ u =
= (74 – 70.4)/6.754 = 0.53
习题 给定一个二项总体
{0,1,0,0,1,1,0,1,1,0},现从中以
n = 4进行复置抽样, 则分析如下:第二节 检验二项资料的百分数第二节 检验二项资料的百分数 所谓二项资料的百分数,指数据资料
可以看成是从二项总体中抽得样本后,
通过计数某一属性的个体数目算出来的
样本百分数,其实质是样本平均数。正
因为经计数获得,所以是间断性变量。
从理论上讲,这类百分数的显著性检
验应按二项分布进行,即用( p + q ) n 的
二项展开式求出某项属性的个体数达到
某个百分数 的概率。但 n 稍大时,直
接用( p + q ) n 来计算区间概率很不方便,
除非制成类似专用的统计
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
来查。
而样本容量足够大 (n>50) 时,若 p、
q 不过于小 (np或nq≮5), 则( p + q ) n 的
分布趋近于正态, 可转换为 u 查算概率。
适合 u-test 的 和 值表第二节 检验二项资料的百分数第二节 检验二项资料的百分数一、单个样本百分数
例3.2 根据往年调查,某地区的乳牛
隐性乳房炎一般为30%, 即po= 0.3,现对
某牛场500头乳牛进行检测,结果有175头
乳牛凝集反应阳性。问该牛场的隐性乳房
炎是否比往年严重?
解 本例n = 500, = 175/500 = 0.35
∵n>200, ∈(0.2, 0.8 ) ∴ 用u-test
⑴ H0:p ≤ p0 或 p ≤ 0.30
⑵ =√(0.3×0.7÷500) =0.0205
u = ( – p)/ = (0.35-0.30) / 0.0205 = 2.439
⑶查表知单侧u0.05 = 双侧u0.10 = 1. 64
⑷推断:|u| > u0.05 故H0不成立。
若以 -np = 175-150= 25 ,进行
测验, =10.25 , u 不变。
若以H0:p = 0.7 进行检验, 或
结果也一样,u = 2.439。
本例有一般百分数为测验依据,
具备计算总体标准误的先决条件,所
以用u-test。这是很少见的几种能直接
应用标准正态分布的场合,也是应用
二项总体抽样分布进行检验的优势。
用正态分布替代二项分布做检验,
其本质是将间断性变量的概率分布去
逼近它的极限——连续性变量的fN(y)。
这种近似过程会有偏差,当数据不符
合前表所列条件时还得照下例操作。
第二节 检验二项资料的百分数第二节 检验二项资料的百分数 例3.3 用基因型纯合的糯和非糯玉米
杂交,按遗传规律 ,预期F1植株上糯性花粉
粒的P0 = 0.5。现于一视野中检视20粒花粉,
发现糯性花粉8粒, 试测验此次镜检结果是
否符合F1代配子1∶1的分离规律。
解 本例n = 20<50, = 8/20 = 0.4
不符合u-test的条件, 只能用t-test
⑴ H0:p = p0 或p = 0.5
⑵∵ 是σ2= pq的无偏估计值
∴ =√(0.4×0.6÷19)=0.1124
tc= ( | – p | – 0.5/n ) / = 0.667
= ( 0.1-0.025 ) / 0.1124
⑶按自由度ν= 19 查得t0.05 = 2.093
⑷推断:t < t0.05 故H0成立
本例若以 -np = 8-10 = -2进行
测验, 则同样应根据σ2= pq的无偏估
计值 先计算标准误:
= √(202 × 0.4×0.6÷19) = 2.25
再算tc= ( | –n p | – 0.5 ) /
= (2-0.5 ) / 2.25 = 0.667
计算 tc 的做法叫连续性矫正,为
的是纠正用连续性变量的t 分布替代
二项分布时, 因为 n 太小而不能忽略
的偏差。即使如此,对这种 n<50的
资料进行检验只适宜于希望 H0 被接
受的场合;如果希望H0被拒绝,
设计
领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计
获得样本百分数的 n 还是越大越好,
达不到100也不要少于50。
第二节 检验二项资料的百分数第二节 检验二项资料的百分数二、两个样本百分数
例3.4 某养猪场第一年饲养杜长大商品
仔猪9800头,死亡980头;第二年饲养10000
头,死亡950头,试检验第二年的死亡率与
第一年的死亡率有无显著差异?
解 = 0.1, = 0.095,可进行u-test
不需连续性矫正, n1 与 n2 有 10000之多。
(1)H0: p1= p2 (同时有: )
(2) = ( n1 +n2 ) / (n1+n2 )= 0.0975
= ( 980+950 ) / (9800+10000 )
=1 - = 1 – 0.0975 = 0.9025
= √(Se2(1/n1+1/n2 ))= 0.00422
= √( (1/9800+1/10000 ))
t = ( – ) -(p1– p2 ) /
= (0.10 - 0.095 ) / 0.00422= 1.185
(3)查得双侧t0.05 ,∞= u0.05 = 1.96
(4)推断|t| < t0.05 H0成立。 本例计算标准误的前提是可以合并
两个样本百分数,然后计算Se2 =
之所以这样作而不象前例计算Se2 =
(ν1S12 +ν2S22) / (ν1+ν2) 前先插入F
检验且知两个样本方差比无显著性,
是因为该题型的H0有双重作用,即作
出H0: p1= p2后,H0 : 也
同真,原因在于二项总体的σ2 = p q
= p(1-p)。
至于n1 或 n2 <50的两个样本百分
数差异显著性检验问题,即使是有 t-
test并且可以进行连续性矫正, 同样因
为只有利于接受H0而不利于拒绝H0,
实际应用中不受推崇。第三节 参数的区间估计第三节 参数的区间估计什么叫区间估计?
即使是复置抽样,由于
抽样误差存在的必然性,不
同的样本将有不同的Ӯ值,
于是, 在一定的置信度(也叫
置信系数或可靠度,一般为
95%或99%)保证之下,估
计出一个范围或区间以覆盖
参数。该区间就叫置信区间,
其上下限叫置信限,分别以
L2、L1表示。如例1.5的n = 25抽样实例:
Ӯ = 44.05 g,S = 4.523g,以
1-α=0.95时的t0.05=2.064算得:
L1 = 44.05-2.064×4.523÷
=42.18 g
L2 = 44.05+2.064×4.523÷
=45.92 g
若用σ=4.65g的已知条件, 则:
L1 = 44.05-1.96×4.65÷
=42.23g
L2 = 44.05+1.96×4.65÷
=45.87 g
第三节 参数的区间估计第三节 参数的区间估计 如例2.3已知某品种母猪的怀孕期
为μ0 = 114d,现抽查其10头母猪得怀
孕期平均日数Ӯ = 114.5d,S = 1.581d。
以1-α=0.95和SӮ = = 0.5d 以及
t0.05=2.262 时算得:
L1 =114.5-2.262×0.5=113.37 g
L2 =114.5+2.262×0.5=115.63g
该区间估计结果也可用于显
著性检验,如本例所示,H0: μ=
114d被包含在1-α= 0.95的置信区
间:[113.37,115.63],故H0成立。
反之,则H0不能成立。
若1-α=0.99, t0.05=3.250,
可算得置信区间扩大为:
[112.88,116.13]。
此时, H0: μ=114d成立与
否无从判断。
再若取单侧 t0.05 = 1.833:
L1 =114.5-1.833×0.5
=113.58 g
L2 =114.5+1.833×0.5
=115.42g
此时, H0: μ≤114d已包
含在1-α= 0.95的置信区间
[113.58,115.42]
故H0成立。
第三节 参数的区间估计第三节 参数的区间估计 又如例2.6 的资料,某小麦品
种每m2产量的σ2= 0.4(kg2 )。A
法取12个样点,得每m2产量Ӯ1=
1.2kg;B法取8个样点, 得Ӯ2 = 1.4
kg。以1-α=0.95 和σӮ1-Ӯ2=0.2887
kg = 以及u0.05=1.96
时算得:
L1 =( 1.2-1.4)-1.96×0.2887
=-0.766 kg
L2 =(1.2-1.4)+1.96×0.2887
=0.366 kg
该区间估计结果用于显著性检
验,如本例所示,H0: μ1-μ2 = 0被
包含在1-α= 0.95的置信区间:
-0.766≤μ1-μ2≤0.366, 故H0成立。
反之,若H0未被包含在1-α=
0.95的置信区间内,则属于H0不能
成立的情形。
于是, 就μ1 = μ2 = μ的情形将
两个样本合并按单个样本进行区间
估计,结果如下:
Ӯ = =1.28kg
σ Ӯ= =0.1414g
L1 =1.28-1.96×0.1414
=1.00 kg
L2 =1.28+1.96×0.1414
=1.56kg
由此可见,用于显著性检验的
区间估计和参数的区间估计不完全
是一回事!
第三节 参数的区间估计第三节 参数的区间估计 又如例2.9某家禽研究所用粤黄鸡对A、B
两种饲料的增重效果进行对比试验,时间60d,
各获得8只鸡的观察值,算得Ӯ 1=705.625g,SS1
= 2022g2;Ӯ 2= 696.125g,SS2= 967g2。
以1-α=0.95 和S Ӯ1-Ӯ2 = =7.306g
以及t0.05=2.145时算得:
L1 =(705.625-696.125)-2.145×7.306
=-6.17g
L2 =(705.625-696.125)+2.145×7.306
=25.17g
该区间估计结果用于显著性检验
时,由于H0: μ1-μ2 = 0被包含在置信
区间:-6.17≤μ1-μ2≤ 25.17
故H0成立。 于是, 就μ1 = μ2 = μ的情形将
两个样本合并按单个样本进行区间
估计,结果如下:
Ӯ = =700.875g
S Ӯ= =3.653g
L1 =700.875-2.131×3.653
=693.09g
L2 =700.875+2.131×3.653
=708.66g
以上两例表明当用于显著性检
验的区间估计针对Ӯ1- Ӯ2 而又接受
H0时,有必要进一步作参数的区间
估计以挖掘更加有用的信息!
第三节 参数的区间估计第三节 参数的区间估计 再如例2.8 在抽穗期间测定喷矮壮
素玉米8株, 得到株高Ӯ1= 176.3cm, SS1
=3787.5cm2,对照区玉米9株,得株高
Ӯ2=233.3 cm,SS2 = 18400cm2。
以1-α=0.95 和S Ӯ1-Ӯ2 =
= 18cm ,以及ν´= 12、一尾t0.05
= 1.782时算得:
L1 =(176.3-233.3)-1.782×18
=24.92 cm
L2 =(176.3-233.3)+1.782×18
=84.08cm
该区间估计结果用于显著性检
验时,由于H0: μ1-μ2 ≤ 0未包含
在置信区间24.92≤μ1-μ2≤84.08。
故H0不成立。
由本例可见,当用于显著性检
验的区间估计针对Ӯ1- Ӯ2 而又拒绝
H0时,参数的区间估计信息也同时
获得!即喷矮壮素的玉米至少比对
照矮24.92cm以上。
第三节 参数的区间估计第三节 参数的区间估计 再如例2.10 研究某批注射液对家兔体
温的影响,测得10只家兔注射前后的体温
(ºC),根据所得自身配对数据算得Σd =
-7.3 (ºC),Sd = 0.445(ºC)。
以1-α=0.95 和Sđ = = 0.141
t0.05 = 2.262时算得:
L1 =-0.73-2.262×0.141 =-1.049
L2 =-0.73+2.262×0.141 =-0.411
该区间估计结果用于显著性检
验时,由于H0: μd = 0未包含在置
信区间-1.049 ≤ μd ≤ -0.411 。
故H0不成立。
由本例可见,当用于显著性检
验的区间估计针对đ而又拒绝H0时,
参数的区间估计信息也同时获得!
即家兔注射某批注射液后的体温至
少升高0.411 ºC 。
第三节 参数的区间估计第三节 参数的区间估计 再如例2.11 从8窝仔猪中每窝选性别
相同、体重接近的2头配对,每对仔猪
随机安排一头喂甲饲料,另一头喂乙饲
料,时间30d,根据所得同源配对数据
(kg)算得∑d = 7.8kg,SSd = 2.3kg2,
以1-α=0.95 和Sđ = = 0.2025,
双侧t0.05 = 2.365时算得:
L1 =0.975-2.365×0.2025 =0.496kg
L2 =0.975+2.365×0.2025 =1.454kg
该区间估计结果用于显著性检
验时,由于H0: μd =0未包含在
置信区间0.496≤ μd ≤1.454。
故H0不成立。
由本例可见,当用于显著性检
验的区间估计针对đ时,其区间估
计信息也可达到和检验非零假设同
样的效果!即喂甲饲料比喂乙饲料,
30d时间至少多0.496kg。第三节 参数的区间估计第三节 参数的区间估计 最后如例3.2 根据往年调查,某地区
的乳牛隐性乳房炎一般为30%, 即po=
0.3,现对某牛场500头乳牛进行检测,
结果有175头乳牛凝集反应阳性。
以1-α=0.95 和 =0.0205,
u0.05 = 1.96时算得:
L1 =0.35-1.96×0.0205 =0.31
L2 =0.35+1.96×0.0205 =0.39
该区间估计结果用于显著性检
验时,由于H0: p = 0.30未包含在
置信区间0.31≤ p ≤0.39。
故H0不成立。
由本例可见,当用于显著性检
验的区间估计针对H0:p = p0 时,
对 进行区间估计的方法和单个Ӯ
一样,既可以判断H0 是否成立,也
可以估计一个范围覆盖参数!第三节 参数的区间估计第三节 参数的区间估计 再如例3.4 某养猪场第一年饲养杜
长大商品仔猪9800头,死亡980头;第
二年饲养10000头,死亡950头。
以1-α=0.95 和ν= ∞时,双侧t0.05
= u0.05 = 1.96,
=0.00422算得:
L1 =(0.1-0.095)-1.96×0.00422
=-0.00327
L2 =(0.1-0.095)+1.96×0.00422
=0.01327
该区间估计结果用于显著性检
验时,由于H0: p1 -p2 =0已包含在
置信区间-0.00327≤ p1 -p2 ≤0.01327。
故H0成立。 于是, 就p1 = p2 = p的情形将两
个样本合并按单个样本进行区间
估计,结果如下:
= =0.0975
= =0.0021
L1 =0.0975-1.96×0.0021
=0.0934
L2 =0.0975+1.96×0.0021
=0.1016
由此可见,当用于显著性检验
的区间估计针对 而又接受H0
时,参数的区间估计只对p进行!第四节 χ2的定义和分布第四节 χ2的定义和分布 假定从一个σ既定的母总体中随机抽取容量
为 n 的样本,则定义:
χ2 = SS / σ2 = (n – 1)S 2 / σ2 = νS 2 / σ2
抽样研究的结果已证实, χ2也是一个连续性
变量, 理论上存在着抽样分布,这就是χ2分布。
它的两个参数分别为:μχ2 =ν,σ 2 χ2 = 2ν
㈠ χ2分布是由自由度 n –1 决定的曲线系统,
因为受χ2 ≮0的限制,任一条都限于纵坐标右侧;
㈡ χ2分布曲线不对称往左偏斜,偏斜程度随
着自由度的增加而减小, ν→∞时,渐趋正态分布,
实际当ν>30时,视√(2χ2) ~ N(√(2ν-1) ,1);
㈢附表6(右尾χ2值表)与χ2分布的关系。第四节 χ2的定义和分布第四节 χ2的定义和分布f (χ2 )χ2←ν= 1←ν= 3←ν= 53.84
↓7.81
|
↓
11.07
↓
图中只列α= 0.05的临界值,
α= 0.01尽管被称为极显著水平,
但“差异极显著”决不意味着本质
差别一定比达到0.05显著水平大。第五节 次数资料的χ2检验第五节 次数资料的χ2检验二、适合性测验
例3.5 研究牛的毛色和角的有无两
对相对性状的分离现象时,用黑色无角牛
和红色有角牛杂交,子二代四种表现型的
观察次数依次为192、78、72、18。试检验
这两对相对性状的遗传是否符合理论比例
为9∶3∶3∶1的独立分配律。
⑴ H0: F2代四种表现型符合9∶3∶3∶1
⑵χ2 =Σ(( A - T )2÷T ) = 4.711
= 10.52/202.5 + 10.52/67.5
+ 4.52/67.5 + 4.52/22.5
⑶ 按ν = 4 - 1 , 查得右尾χ2 0.05 = 7.815
⑷ 推断: χ2 < χ2 0.05 H0成立
Σ(( A - T )2÷T ) ~ χ2 (k -1)
ν= 1时, χC2 =Σ((| A -T | - 0.5 )2÷T ) 第五节 次数资料的χ2检验第五节 次数资料的χ2检验三、独立性测验
例3.6 分别统计了甲、乙两个品种
各67头经产母猪的产仔情况,结果如右表
(Tij内为相应的理论次数),试检验经产
母猪的产仔构成比是否因品种而不同。
⑴H0:产仔构成比与因品种无关
⑵χ2 =Σ(( A - T )2÷T ) = 23.23
= 62/11 + 5.52/38.5+ 11.52/17.5
+ 62/11 + 5.52/38.5 + 11.52/17.5
⑶按自由度ν=(2-1)(3-1)查得χ20.05=5.99
⑷推断:χ2 > χ2 0.05 H0不成立
Σ(( A - T )2÷T ) ~ χ2 (r -1)(c-1)
ν= 1时, χC2 =Σ((| A -T |- 0.5 )2÷T ) 显著性检验(小结)显著性检验(小结) 至此已讲完统计三大分布,历史上是先有u
分布,后来才依次有χ2分布、 t 分布和F 分布
㈠当计算χ2的自由度ν= 1时, χ2 = u2 ;
㈡当计算t的自由度ν→∞时, t → N(0, 1);
㈢ Fisher 证明 Gosset 定义的 t 变量实际上是
用χ2变量除以ν后的正根值去除 u 变量所得:
t = u /√(χ2 / ν) 〔取u =(Ӯ-μ)÷σ/√n〕
=〔(Ӯ-μ)÷σ/√n〕/〔√(νS2 / σ2 ÷ν)〕
=〔(Ӯ-μ)÷σ/√n 〕·σ/S = (Ӯ-μ)÷S/√n
㈣ F 分布与u 分布、χ2分布、 t 分布的联系
同样可从其定义:F= S12 / S22 导出,如右图。
㈤ χ2分布与F分布因为不对称, 其两尾检验
不象u-test或t-test那么简单, 左、右尾算法不同。 四种抽样分布关系图