3、抽样分布及应用㈡

3、抽样分布及应用㈡null第三章抽样分布及其应用㈡第三章抽样分布及其应用㈡第一节二项总体抽样第二节检验二项资料的百分数（针对单个样本百分数和两样本百分数）第三节参数的区间估计第四节 χ2的定义和分布第五节次数资料的χ2检验第三章要点提示第三章要点提示抽样分布及其应用㈡是上一章抽样分布及其应用㈠的延伸，两者构成统计分析方法的基础部分，学习时：①对于二项总体抽样，要清楚它和上一章单个母总体...

null第三章抽样分布及其应用㈡第三章抽样分布及其应用㈡第一节二项总体抽样第二节检验二项资料的百分数（针对单个样本百分数和两样本百分数）第三节参数的区间估计第四节 χ2的定义和分布第五节次数资料的χ2检验第三章要点提示第三章要点提示抽样分布及其应用㈡是上一章抽样分布及其应用㈠的延伸，两者构成统计分析方法的基础部分，学习时：①对于二项总体抽样，要清楚它和上一章单个母总体抽样的联系和区别； ②对于百分数的检验，要注意应用u-test的条件、不符合这些条件时进行连续性矫正的必要性以及标准误的计算方法衍生总体参数的异同点； ③ 参数的区间估计可替代显著性检验，但它比显著性检验挖掘的信息更充分；④掌握依据χ2变量SS/σ2 服从的理论分布进行适合性检验和独立性检验时计算χ2值的方法。涉及教材内容：第五章第四、五节，第七章第一、二、三节。作业布置：教材P91 T13、 T14； P173-174 T5、 T7、 T8、 T10。第一节二项总体抽样第一节二项总体抽样一、二项总体参数本节是针对一类特殊的母总体进行抽样研究，这类总体内的个体不管有多少个，都可按某种性状出现与否分为两组，故称二项总体。将其中出现某种性状的个体的观察值定为“1”，否则定为“0”。若已知二项总体的个体有N个，出现某种性状的概率为p，则其参数计算如下： μ=Σfy /N = Np/N = p σ2 = Σf ( y –μ)2/N = Np(1- p) /N = pq 可见二项总体的两个参数 μ,σ2 都由平均数p (即个体出现某种性状的概率) 唯一确定。　二、衍生总体参数从二项总体中以样本容量 n 进行复置抽样，根据前述中心极限定理的有关结论，同样有： Ӯ或～N(μӮ ，σ2Ӯ)且： μӮ = μ= p， σ2Ӯ = =σ2 /n = pq/n Σy或～N(μΣy ，σ2Σy )且： μΣy = nμ= np, σ2Σy = = nσ2 = npq，于是: u = (Ӯ – μӮ ) /σӮ = u = (Σy – μΣy ) /σΣy =第一节二项总体抽样第一节二项总体抽样例3.1 假定调查某地全部棉株受盲椿危害的情况，发现704株受害，且 N = 2000，得μ= 0.352,σ= 0.4776；现从中以n = 200 抽取一个样本，知受害株数 = 74，受害率 = 0.37，试计算获此抽样误差的概率。解依题意应求P( | –p|≥0.018) ∵ = 0.4776÷√200 = 0.034 ∴原式 = P(|u| ≥ 0.53)= 2 P(u ≤ - 0.53) = 2 Φ(- 0.53) = 2×0.2981= 0.5962 依题意也可求P( | – np|≥3.6) ∵ = 6.754 ∴ u = = (74 – 70.4)/6.754 = 0.53 习题给定一个二项总体｛0,1,0,0,1,1,0,1,1,0｝，现从中以 n = 4进行复置抽样, 则分析如下:第二节检验二项资料的百分数第二节检验二项资料的百分数所谓二项资料的百分数，指数据资料可以看成是从二项总体中抽得样本后，通过计数某一属性的个体数目算出来的样本百分数，其实质是样本平均数。正因为经计数获得，所以是间断性变量。从理论上讲，这类百分数的显著性检验应按二项分布进行，即用( p + q ) n 的二项展开式求出某项属性的个体数达到某个百分数的概率。但 n 稍大时，直接用( p + q ) n 来计算区间概率很不方便，除非制成类似专用的统计表来查。而样本容量足够大 (n＞50) 时，若 p、 q 不过于小 (np或nq≮5), 则( p + q ) n 的分布趋近于正态, 可转换为 u 查算概率。适合 u-test 的和值表第二节检验二项资料的百分数第二节检验二项资料的百分数一、单个样本百分数例3.2 根据往年调查，某地区的乳牛隐性乳房炎一般为30%，即po= 0.3，现对某牛场500头乳牛进行检测，结果有175头乳牛凝集反应阳性。问该牛场的隐性乳房炎是否比往年严重？解本例n = 500， = 175/500 = 0.35 ∵n＞200, ∈(0.2, 0.8 ) ∴ 用u-test ⑴ H0：p ≤ p0 或 p ≤ 0.30 ⑵ =√(0.3×0.7÷500) =0.0205 u = ( – p)/ = (0.35－0.30) / 0.0205 = 2.439 ⑶查表知单侧u0.05 = 双侧u0.10 = 1. 64 ⑷推断：｜u｜＞ u0.05 故H0不成立。若以 -np = 175-150= 25 ，进行测验, =10.25 , u 不变。若以H0：p = 0.7 进行检验，或结果也一样，u = 2.439。本例有一般百分数为测验依据，具备计算总体标准误的先决条件，所以用u-test。这是很少见的几种能直接应用标准正态分布的场合，也是应用二项总体抽样分布进行检验的优势。用正态分布替代二项分布做检验，其本质是将间断性变量的概率分布去逼近它的极限——连续性变量的fN(y)。这种近似过程会有偏差，当数据不符合前表所列条件时还得照下例操作。第二节检验二项资料的百分数第二节检验二项资料的百分数例3.3 用基因型纯合的糯和非糯玉米杂交，按遗传规律 ,预期F1植株上糯性花粉粒的P0 = 0.5。现于一视野中检视20粒花粉，发现糯性花粉8粒, 试测验此次镜检结果是否符合F1代配子1∶1的分离规律。解本例n = 20＜50， = 8/20 = 0.4 不符合u-test的条件, 只能用t-test ⑴ H0：p = p0 或p = 0.5 ⑵∵ 是σ2= pq的无偏估计值 ∴ =√(0.4×0.6÷19)=0.1124 tc= ( | – p | – 0.5/n ) / = 0.667 = ( 0.1－0.025 ) / 0.1124 ⑶按自由度ν= 19 查得t0.05 = 2.093 ⑷推断：t ＜ t0.05 故H0成立本例若以 -np = 8－10 = -2进行测验, 则同样应根据σ2= pq的无偏估计值先计算标准误: = √(202 × 0.4×0.6÷19) = 2.25 再算tc= ( | –n p | – 0.5 ) / = (2－0.5 ) / 2.25 = 0.667 计算 tc 的做法叫连续性矫正，为的是纠正用连续性变量的t 分布替代二项分布时, 因为 n 太小而不能忽略的偏差。即使如此，对这种 n＜50的资料进行检验只适宜于希望 H0 被接受的场合；如果希望H0被拒绝, 设计获得样本百分数的 n 还是越大越好，达不到100也不要少于50。第二节检验二项资料的百分数第二节检验二项资料的百分数二、两个样本百分数例3.4 某养猪场第一年饲养杜长大商品仔猪9800头，死亡980头；第二年饲养10000 头，死亡950头，试检验第二年的死亡率与第一年的死亡率有无显著差异？解 = 0.1， = 0.095，可进行u-test 不需连续性矫正， n1 与 n2 有 10000之多。（1）H0: p1＝ p2 (同时有: ) （2） = ( n1 +n2 ) / (n1+n2 )= 0.0975 = ( 980+950 ) / (9800+10000 ) =1 - = 1 – 0.0975 = 0.9025 = √(Se2(1/n1+1/n2 ))= 0.00422 = √( (1/9800+1/10000 )) t = ( – ) －(p1– p2 ) / = (0.10 － 0.095 ) / 0.00422= 1.185 （3）查得双侧t0.05 ，∞= u0.05 = 1.96 （4）推断｜t｜＜ t0.05 H0成立。本例计算标准误的前提是可以合并两个样本百分数，然后计算Se2 = 之所以这样作而不象前例计算Se2 = (ν1S12 +ν2S22) / (ν1+ν2) 前先插入F 检验且知两个样本方差比无显著性，是因为该题型的H0有双重作用，即作出H0: p1＝ p2后，H0 : 也同真，原因在于二项总体的σ2 = p q = p(1-p)。至于n1 或 n2 ＜50的两个样本百分数差异显著性检验问题，即使是有 t- test并且可以进行连续性矫正, 同样因为只有利于接受H0而不利于拒绝H0, 实际应用中不受推崇。第三节参数的区间估计第三节参数的区间估计什么叫区间估计？即使是复置抽样，由于抽样误差存在的必然性，不同的样本将有不同的Ӯ值，于是, 在一定的置信度(也叫置信系数或可靠度，一般为 95％或99％）保证之下，估计出一个范围或区间以覆盖参数。该区间就叫置信区间, 其上下限叫置信限，分别以 L2、L1表示。如例1.5的n = 25抽样实例： Ӯ = 44.05 g，S = 4.523g，以 1-α=0.95时的t0.05=2.064算得： L1 ＝ 44.05－2.064×4.523÷ ＝42.18 g L2 ＝ 44.05＋2.064×4.523÷ ＝45.92 g 若用σ=4.65g的已知条件，则： L1 ＝ 44.05－1.96×4.65÷ ＝42.23g L2 ＝ 44.05＋1.96×4.65÷ ＝45.87 g 第三节参数的区间估计第三节参数的区间估计如例2.3已知某品种母猪的怀孕期为μ0 = 114d，现抽查其10头母猪得怀孕期平均日数Ӯ = 114.5d，S = 1.581d。以1-α=0.95和SӮ = = 0.5d 以及 t0.05=2.262 时算得： L1 ＝114.5－2.262×0.5＝113.37 g L2 ＝114.5＋2.262×0.5＝115.63g 该区间估计结果也可用于显著性检验，如本例所示，H0: μ= 114d被包含在1-α= 0.95的置信区间：［113.37，115.63］,故H0成立。反之，则H0不能成立。若1-α=0.99, t0.05=3.250, 可算得置信区间扩大为：［112.88，116.13］。此时, H0: μ=114d成立与否无从判断。再若取单侧 t0.05 = 1.833: L1 ＝114.5－1.833×0.5 ＝113.58 g L2 ＝114.5＋1.833×0.5 ＝115.42g 此时, H0: μ≤114d已包含在1-α= 0.95的置信区间［113.58，115.42］故H0成立。第三节参数的区间估计第三节参数的区间估计又如例2.6 的资料，某小麦品种每m2产量的σ2= 0.4(kg2 )。A 法取12个样点，得每m2产量Ӯ1= 1.2kg；B法取8个样点, 得Ӯ2 = 1.4 kg。以1-α=0.95 和σӮ1-Ӯ2=0.2887 kg = 以及u0.05=1.96 时算得： L1 ＝( 1.2-1.4)－1.96×0.2887 ＝－0.766 kg L2 ＝(1.2-1.4)＋1.96×0.2887 ＝0.366 kg 该区间估计结果用于显著性检验，如本例所示,H0: μ1-μ2 = 0被包含在1-α= 0.95的置信区间： -0.766≤μ1-μ2≤0.366, 故H0成立。反之，若H0未被包含在1-α= 0.95的置信区间内，则属于H0不能成立的情形。于是, 就μ1 = μ2 = μ的情形将两个样本合并按单个样本进行区间估计，结果如下： Ӯ ＝＝1.28kg σ Ӯ＝＝0.1414g L1 ＝1.28－1.96×0.1414 ＝1.00 kg L2 ＝1.28＋1.96×0.1414 ＝1.56kg 由此可见，用于显著性检验的区间估计和参数的区间估计不完全是一回事！第三节参数的区间估计第三节参数的区间估计又如例2.9某家禽研究所用粤黄鸡对A、B 两种饲料的增重效果进行对比试验，时间60d, 各获得8只鸡的观察值,算得Ӯ 1=705.625g，SS1 = 2022g2；Ӯ 2= 696.125g，SS2= 967g2。以1-α=0.95 和S Ӯ1-Ӯ2 = =7.306g 以及t0.05=2.145时算得： L1 ＝(705.625-696.125)－2.145×7.306 ＝－6.17g L2 ＝(705.625-696.125)＋2.145×7.306 ＝25.17g 该区间估计结果用于显著性检验时，由于H0: μ1-μ2 = 0被包含在置信区间：－6.17≤μ1-μ2≤ 25.17 故H0成立。于是, 就μ1 = μ2 = μ的情形将两个样本合并按单个样本进行区间估计，结果如下： Ӯ ＝＝700.875g S Ӯ＝＝3.653g L1 ＝700.875－2.131×3.653 ＝693.09g L2 ＝700.875＋2.131×3.653 ＝708.66g 以上两例表明当用于显著性检验的区间估计针对Ӯ1- Ӯ2 而又接受 H0时，有必要进一步作参数的区间估计以挖掘更加有用的信息！第三节参数的区间估计第三节参数的区间估计再如例2.8 在抽穗期间测定喷矮壮素玉米8株, 得到株高Ӯ1= 176.3cm, SS1 =3787.5cm2，对照区玉米9株，得株高 Ӯ2=233.3 cm，SS2 = 18400cm2。以1-α=0.95 和S Ӯ1-Ӯ2 = = 18cm ，以及ν´= 12、一尾t0.05 = 1.782时算得： L1 ＝(176.3-233.3)－1.782×18 ＝24.92 cm L2 ＝(176.3-233.3)＋1.782×18 ＝84.08cm 该区间估计结果用于显著性检验时，由于H0: μ1-μ2 ≤ 0未包含在置信区间24.92≤μ1-μ2≤84.08。故H0不成立。由本例可见，当用于显著性检验的区间估计针对Ӯ1- Ӯ2 而又拒绝 H0时，参数的区间估计信息也同时获得！即喷矮壮素的玉米至少比对照矮24.92cm以上。第三节参数的区间估计第三节参数的区间估计再如例2.10 研究某批注射液对家兔体温的影响，测得10只家兔注射前后的体温（ºC），根据所得自身配对数据算得Σd = -7.3 （ºC），Sd = 0.445（ºC）。以1-α=0.95 和Sđ = = 0.141 t0.05 = 2.262时算得： L1 ＝-0.73－2.262×0.141 ＝－1.049 L2 ＝-0.73＋2.262×0.141 ＝－0.411 该区间估计结果用于显著性检验时，由于H0: μd ＝ 0未包含在置信区间－1.049 ≤ μd ≤ －0.411 。故H0不成立。由本例可见，当用于显著性检验的区间估计针对đ而又拒绝H0时，参数的区间估计信息也同时获得！即家兔注射某批注射液后的体温至少升高0.411 ºC 。第三节参数的区间估计第三节参数的区间估计再如例2.11 从8窝仔猪中每窝选性别相同、体重接近的2头配对，每对仔猪随机安排一头喂甲饲料，另一头喂乙饲料，时间30d，根据所得同源配对数据 (kg)算得∑d = 7.8kg，SSd = 2.3kg2，以1-α=0.95 和Sđ = = 0.2025, 双侧t0.05 = 2.365时算得： L1 ＝0.975－2.365×0.2025 ＝0.496kg L2 ＝0.975＋2.365×0.2025 ＝1.454kg 该区间估计结果用于显著性检验时，由于H0: μd ＝0未包含在置信区间0.496≤ μd ≤1.454。故H0不成立。由本例可见，当用于显著性检验的区间估计针对đ时，其区间估计信息也可达到和检验非零假设同样的效果！即喂甲饲料比喂乙饲料， 30d时间至少多0.496kg。第三节参数的区间估计第三节参数的区间估计最后如例3.2 根据往年调查，某地区的乳牛隐性乳房炎一般为30%，即po= 0.3，现对某牛场500头乳牛进行检测，结果有175头乳牛凝集反应阳性。以1-α=0.95 和 =0.0205， u0.05 = 1.96时算得： L1 ＝0.35－1.96×0.0205 ＝0.31 L2 ＝0.35＋1.96×0.0205 ＝0.39 该区间估计结果用于显著性检验时，由于H0: p = 0.30未包含在置信区间0.31≤ p ≤0.39。故H0不成立。由本例可见，当用于显著性检验的区间估计针对H0：p = p0 时，对进行区间估计的方法和单个Ӯ 一样，既可以判断H0 是否成立，也可以估计一个范围覆盖参数！第三节参数的区间估计第三节参数的区间估计再如例3.4 某养猪场第一年饲养杜长大商品仔猪9800头，死亡980头；第二年饲养10000头，死亡950头。以1-α=0.95 和ν= ∞时，双侧t0.05 = u0.05 = 1.96，＝0.00422算得： L1 ＝(0.1-0.095)－1.96×0.00422 ＝-0.00327 L2 ＝(0.1-0.095)＋1.96×0.00422 ＝0.01327 该区间估计结果用于显著性检验时，由于H0: p1 -p2 ＝0已包含在置信区间-0.00327≤ p1 -p2 ≤0.01327。故H0成立。于是, 就p1 = p2 = p的情形将两个样本合并按单个样本进行区间估计，结果如下：＝＝0.0975 ＝＝0.0021 L1 ＝0.0975－1.96×0.0021 ＝0.0934 L2 ＝0.0975＋1.96×0.0021 ＝0.1016 由此可见，当用于显著性检验的区间估计针对而又接受H0 时，参数的区间估计只对p进行！第四节 χ2的定义和分布第四节 χ2的定义和分布假定从一个σ既定的母总体中随机抽取容量为 n 的样本，则定义： χ2 = SS / σ2 = (n – 1)S 2 / σ2 = νS 2 / σ2 抽样研究的结果已证实, χ2也是一个连续性变量, 理论上存在着抽样分布，这就是χ2分布。它的两个参数分别为：μχ2 =ν，σ 2 χ2 = 2ν ㈠ χ2分布是由自由度 n –1 决定的曲线系统，因为受χ2 ≮0的限制，任一条都限于纵坐标右侧；㈡ χ2分布曲线不对称往左偏斜，偏斜程度随着自由度的增加而减小, ν→∞时，渐趋正态分布, 实际当ν＞30时,视√(2χ2) ～ N(√(2ν-1) ，1); ㈢附表6(右尾χ2值表)与χ2分布的关系。第四节 χ2的定义和分布第四节 χ2的定义和分布f (χ2 )χ2←ν= 1←ν= 3←ν= 53.84 ↓7.81 ｜ ↓ 11.07 ↓ 图中只列α= 0.05的临界值， α= 0.01尽管被称为极显著水平，但“差异极显著”决不意味着本质差别一定比达到0.05显著水平大。第五节次数资料的χ2检验第五节次数资料的χ2检验二、适合性测验例3.5 研究牛的毛色和角的有无两对相对性状的分离现象时，用黑色无角牛和红色有角牛杂交，子二代四种表现型的观察次数依次为192、78、72、18。试检验这两对相对性状的遗传是否符合理论比例为9∶3∶3∶1的独立分配律。 ⑴ H0: F2代四种表现型符合9∶3∶3∶1 ⑵χ2 =Σ(( A － T )2÷T ) = 4.711 = 10.52/202.5 + 10.52/67.5 + 4.52/67.5 + 4.52/22.5 ⑶ 按ν = 4 - 1 , 查得右尾χ2 0.05 = 7.815 ⑷ 推断: χ2 ＜ χ2 0.05 H0成立 Σ(( A － T )2÷T ) ～ χ2 (k -1) ν= 1时, χC2 =Σ((| A －T | - 0.5 )2÷T ) 第五节次数资料的χ2检验第五节次数资料的χ2检验三、独立性测验例3.6 分别统计了甲、乙两个品种各67头经产母猪的产仔情况，结果如右表（Tij内为相应的理论次数），试检验经产母猪的产仔构成比是否因品种而不同。 ⑴H0：产仔构成比与因品种无关 ⑵χ2 =Σ(( A － T )2÷T ) = 23.23 = 62/11 + 5.52/38.5+ 11.52/17.5 + 62/11 + 5.52/38.5 + 11.52/17.5 ⑶按自由度ν=(2-1)(3-1)查得χ20.05=5.99 ⑷推断：χ2 ＞ χ2 0.05 H0不成立 Σ(( A － T )2÷T ) ～ χ2 (r -1)(c-1) ν= 1时, χC2 =Σ((| A －T |－ 0.5 )2÷T ) 显著性检验（小结）显著性检验（小结）至此已讲完统计三大分布，历史上是先有u 分布，后来才依次有χ2分布、 t 分布和F 分布㈠当计算χ2的自由度ν= 1时, χ2 = u2 ；㈡当计算t的自由度ν→∞时, t → N(0, 1)；㈢ Fisher 证明 Gosset 定义的 t 变量实际上是用χ2变量除以ν后的正根值去除 u 变量所得： t = u /√(χ2 / ν) 〔取u =（Ӯ－μ）÷σ/√n〕 =〔(Ӯ－μ)÷σ/√n〕/〔√(νS2 / σ2 ÷ν)〕 =〔(Ӯ－μ)÷σ/√n 〕·σ/S = (Ӯ－μ)÷S/√n ㈣ F 分布与u 分布、χ2分布、 t 分布的联系同样可从其定义：F= S12 / S22 导出，如右图。㈤ χ2分布与F分布因为不对称, 其两尾检验不象u-test或t-test那么简单, 左、右尾算法不同。四种抽样分布关系图

                    本文档为【3、抽样分布及应用㈡】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

3、抽样分布及应用㈡

你可能还喜欢