!!£煎盈堑芏量一釜垫(】!生】旦塑;旦鲞筻!塑堡!-!』垦P丝!垫!!!:』些!i!!业c】!,丛,1.塑,堕!:1
整群抽样调查数据
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
中应正确计算
抽样误差
吕筠 何平平潦文校李立明
·问题与探讨·
【导读】 为了澄清绍群抽样捌奋数据分析巾币确计算抽样误差的必要性,以在某市15岁及以上
人群中开展的一次两阶段整群抽样涮查为例,分别采用适用于单纯随机抽样数据的方法和考虑r复
杂抽样
设计
领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计
的方法对数据进j,分析。结果罹月i,忽略对复杂抽样设计的考虑,不恰当的采用适Ⅲ于单
纯随机抽样数据的方法进ir数据分析,小仅有可能太大低估样奉统计量的抽样误差,在进行似设检验
时,甚至会得到错误的结果,故市确分析和
报告
软件系统测试报告下载sgs报告如何下载关于路面塌陷情况报告535n,sgs报告怎么下载竣工报告下载
整群抽样调查数据的抽样误差是非常必要的。
【关键词】整群抽样;单纯随机抽样;抽样误差;复杂调查数据
Estima廿佃0fs帅pli“gerroro¨datjIfr岫cIustersampIesuneyLV且”,HEPzn矿产z”g,丁UWe”
z缸D,L,LⅢ2Mg也加r£㈣f矿印zdPmio£o删& B拼£n州州,鼬洲o,n6陆地dz旃,尸礤z”g
Lhzz聊’痂yH眦z腩&醒”删&”£盯,上}P西ing1【)I)(J83,(:hina
(0rr甜加”d:”gn“£^or:LJL㈨i月g,EInail:lmlcc@pumccducn
【IntmductioⅡ】Toclarlfythenece销ILyorapplylngappmp“atesta“sr;calmeth。dstocalculak
龃mpling叮mrfmmdata。fclustersampIesLLrvey,wecakeatw0_stagcclustcrsample8urveydevelopedfr。m
ap。pulaLlonaged15and㈣㈣ampleweusestatjsncalmet}lodsbased。nLh㈦umptlon。f8Im训e
randomsamplesandmeLllo出c眦“lderirlgcompkxsampled鹤igntoanalyze。urdaLa,r如pecLlvclyT}啪llgh
conlparison,wehopetoshowchep吼e11L1alefkc峙ofuslng1mprop町stati8tlcaImethodSt。estlmate乩mpling
㈣r()nparameterestimatlonandhypothesistesLlngUsillgstandarderroralgoⅢhmsba5edonthe
assurnpLlonofmplcmnddmsamples,thestandarderrorsca【culaLedufl啪und吣timatesam—i”gerrorand
thehyp。theslst黜Li“geVe“getswrongconch埚ionWhcnthestat;sticalmetho出andstatlsLlcspackagcfor
∞mplcxsurvcydataareaIreadyavallable,1t1snecessa。yr0㈤t0㈣ppmp“atemethods∞analyzeand
reponL}1㈨mpllngcrm玮ofdatafmmclustersamplesurvey
【Keywords】clusL⋯am曲ng;slmplerandom8arnpli“g;Sanlpllngermr;Cc)mplcxsuweydata
传统的统汁教学和绝大多数统计书中讲授的统
计分析力法都是基于单纯随机抽样的假设。但是,
在实际工作中,专、眼人员很少直接采用单纯随机抽
样,更多的是采用整群抽样或整合多种抽样方法的
多阶段抽样。在分析这样的复杂抽样调查数据时,
不假思索的使用传统的统计分析方法很可能会得到
错误结果。适当的分析至少要考虑两个方而的问
题:一方面是影响样本统计量点值估计的“加权”问
题,另一方面是对样本统计量的抽样误差计算问题。
从目前国内医学期f{J上发表的大量概率抽样调查报
告来看,国内学者普遍缺乏对复杂抽样调查数据分
析方法的正确认识和掌握。本文着重讨论常用的两
阶段整群抽样调查数据分析中抽样误差的计算,分
析抽样误差增大的原因、设计效应以及错误计算复
杂抽样调查数据的抽样误差会出现哪些问题,从而
作者单位:100083北京大学公共卫生学院流行病与卫牛统计学系
通讯作者:李立明,Emalllnllee@p‰educn
说明使用正确的方法计箅抽样误差的必要性。
基本原理
在概率抽样调查中,抽样误差的大小受样本量、
抽样方法等因素的影响。抽样方法一定时,样本量
越大,抽样误差越小。样本量一定时,整群抽样的抽
样误差通常要比单纯随机抽样大。抽样误差越大.
意味着样本统计量的可信区问越宽,估计值的精确
度越低。我们通常用
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
误来定量估计样本统计量
与总体参数之间的差异,即抽样误差。
1整群抽样调查数据抽样误差增大的原因:整
群抽样调查数据抽样误差增大主要是因为群内个体
在研究的性状上趋向于同质,而群问的变异性加大。
以图l为例,假定某街道有6个小区(如图1左侧),
每个小区中有10幢房屋。我们用圆圈表示普通房
屋,十字框表示豪华房屋,可见该街道普通房屋和豪
华房屋各占一半,普通房屋和豪华房屋的分布存在
万方数据
!堑盟盟堑芏型查!!塑生!旦蔓塑董墨!塑处!』Eet!!m·型.』!!!!壁;!竖!!尘!:塑,堕!.!
明显的聚集性。如果我们想通过整群抽样调查了解
街道中普通房屋的比例,以小区为抽样单位,抽取2
个小区共20户进行调查。图l右侧的表格中列出
了所有可能的抽样组合及计算的样本统计量。已知
整个街道中普通房屋的比例为O.50,15种组台的平
均值也为O.50。但是,这15种组合之问存在很大的
变异,其中6个估计值≥O.80或≤020(在表格中
用*标记),误差很大。这个例子反映了当性状在群
内趋于同质、而群问变异很大时,整群抽样数据样本
统计量的抽样提差会很人。
总体
抽取两十小巨
(秆奉中。埒棒的阮铡)
№R∞十E≈ Q口月d勺m倒
'2 {W2D=095’
23 '7mO=日85_
'3 tW20=080‘
2 4 13&0邮"
1 4 12&0E0舯
2 6 "f2。神55
1 8 1口瑚=050
2 5 10,2口=口50
3 4 1w20=050
1 5 *20=045
3 e e,2D=O4m
3} WH哪35
4.6 帕口詈。.拍‘
45 3nO一015-
56 1m0;005‘
圄1 1811群抽样调杳不意罔
2.没计效应:在公式l巾,”(,)表示整群抽样
时样本统计量的方差;当假定抽样方法为单纯随机
抽样时,方差为%。(j)。两者的比值d2称为设计
效应(desigzzerfecI)。设计效应反映了整群抽样时
样本统计量的精确度损失。
整群抽样调查抽样误差增大直接影响到调查设
计时样本量的估算。例如,根据既往相同人群中开展
的同类研究,我们了解到某项指标的整群抽样设计效
应为扩=3.13。在设计一项新的调查时,当要求的容
许瀑差一定时,如果开展单纯随机抽样需要调查200
人,则进行整群抽样调查时需要调查200×313二=626
人,才可以满足设计者对调查精确度的要求。
在流行病学教材中,当介绍整群抽样时,通常会
有这样的陈述:“群间变异越小,群的规模越小,抽取
的群越多,获得样本统计量的精确度就越好。由于抽
样误差增大,所以建议整群抽样的样本量比单纯随机
抽样增加1/2”。实际上,这种经验的
总结
初级经济法重点总结下载党员个人总结TXt高中句型全总结.doc高中句型全总结.doc理论力学知识点总结pdf
也是基于上
面介绍的原理。其中建议的整群抽样的样本量增加
1/2,是按整群抽样的设计效应为15来考虑的。
3错误计算抽样误差对参数估计和假设检验的
影响:经整群抽样调查获得的数据,如果仍按基于单
纯随机抽样假设的传统统计方法进行分析,在参数
估计中,计算得到的标准误很有可能会低估样本统
计昔的抽样误差,有时差距可高达几}_倍,使人们对
研究结果的精确度产生错误的认识,影响进一步的
研究实践或卫生决策。如果继续进行假醴榆验,抽
样误差的低估会导致检验的I类错误概率增大,可
能得到假阳性的错误结沦。
4.统计学分析软什:目前,多数分析复杂概率抽
样的统计方法已经可以通过统计软件实现,流行病
学专业人员在对基本概念有一定的理解后就可方便
的使用。例如,EpiInfo中前缀为ComplexsampIc
的分析菜单;sAS中的“Procsurvey”模块;sPss中
的“compIcxSaml)lcs”菜单;stata中的“suⅣevd“a
8nalys≯菜单。除此之外,sI-daan是专门用来分析
复杂抽样调查数据或类似结构数据的统计软件,还
有一些其他软件,如cENVAR、VPLX、wesVar等。
实例分析
我们在某市15岁及以上居民中开展了一次抽样
调查,了解居民日常获取健康信息的土要途径。抽样
设计为两阶段整群抽样。第一阶段,以村/居委会为
抽样单位,共抽取14个村/居委会。第二阶段,在抽
到的村/居委会中进一步随机抽取一定数量的个体进
行调查。最终,调查了604人,每个村/居委会调查
22~78人不等。统计学分析使用stara/MP10.0f01
Windows(Stata肠rpLP,TX77845USA)完成。
1参数估计:袭1中展示了按单纯随机抽样和
两阶段整群抽样分别得到的样本统计量的标准误。
分析的两个变量为居民中收看电视的比例(588/
604)和收听广播的比例(137/604)。由表1可见:①
样本统计量(即两种行为在调查人群中的比例)的点
估计不会因为是否考虑抽样方法而发生改变,点值
火小只受加权处理的影响。②在正确考虑了整群抽
样的设计特征后,两个变量的标准误均增大,尤其是
“广播”变量,标准误由0.0171增加到O0790。从计
算的设计效应的火小也可以看出同样的规律,“电
视”变量的设计效应为229,而“广播”变量的设计效
应高达2146。可见,如果错误的按单纯随机抽样进
行分析,会显著低估样本统计量的抽样误差。根据
正确的分析,本次调查得到的“广播”变量的95%可
"@巫%
万方数据
!垩煎鱼堕芏壁生型【l!至l旦璺塑鲞受!型。蔓jt!』垦P-!!里塑1.』!!塑!!!!!!,∑!!!!,№:!
信区问非常宽,容许误差高达017,相对洪差达
74%,结果精确度很低,提醒读者在参考这个结果时
要谨慎。
为什么整群抽样设计会对“广播”变量的抽样误
差有这么大的影响?我们进一步分析了“电视”变量
和“广播”变量在各个村/居委会中的比例。由于每个
村/居委会中调查的人数很少,得到的比例不能作为
该村/居委会人群行为水甲的真实反映。但是,该分
析町以提供一些线索。由图2和图3可见,“电视”变
量的群间变异(88%~100%)不是很大;而“广播”变
量的群间变异却是相当明显(4%~100%)。收听广
播这个行为在同·村/居委会中有同质的倾向。
表1 居民中收看电视和收听广播的比例——不同
统】;r分析方法对样本统计量抽样误差大小的影响
享
屡
薯
蓝
露
廿
怖
擎
纯随机拙样假设,应采用Pearson矿检验。如果考
虑了整群抽样设计,Stata软件中默认的计算方法是
Rao和Scott校正法,提供了F统计量,并给出相应
的P值。从表2中可以看到,基于不同抽样方法分
析得到的P值都不同。与单纯随机抽样相比,在正
确考虑了整群抽样的设计特征后,P值一致增大。
“向专业人员咨询”这个变量的检验结论甚至发生
“质”的变化:考虑了整群抽样的统计分析表明城乡
无差异(P=0.27),而基丁单纯随机抽样的分析却
得到了城乡有差异的假阳性结果(P<0001)。
萝
叵
丑
鲁
担
I
鲁
#
;
⋯圈嚯⋯崩.亳.1忍m.1
2 3 4 5 6 7 8 9】Oll 12 1314
村/培垂会编号
图3 各村/居委会人群中收听广播的比例
结 语
以P实例分析表明,忽略了整群抽样设计,错误
的按单纯随机抽样假殴的传统方法对数据进行分
析,不仅有可能大大低估抽样误差,无法正确认识样
本统计量的精确度水平;在进行假设检验时,甚至有
可能得到错误的结果。建议研究者在分析复杂抽样
调查数据时能够使用正确的统计分析方法;在撰写
论文时,清晰介绍调查的抽样设计和使用的统计分
析方法,并报告结果的点估计值和可信区间。同时,
也建议科技期刊能将此要求纳入审稿的标准中。另
外,鼓励研究者能够计算并在投稿论文中报告调查
中主要指标的设计效应,今后如果开展类似研究,这
个参数可作为研究设计时的重要参考。
表2 城乡居民3个变量分布比较分析——不同统计分析方法对假设检验结果影响
变量 可F堂一丽~ 分析方法 检验统计母 P值
收听J一播 城市:110/300 城市:037 单纯 P㈣Y2=6647 <000l
农村:27/304 农村:009 整群 F(1,I3)=750 O017
阅读书籍 城市:44f299 城市:0 15 单纯 P㈣n'21503 (000L
农村:16/304 农村:0 05 整群 F(1.13)=558 O03
向专业人员咨询 城市:211/299 城市:0 7l 单纯 P㈣n一=1573
本文档为【整群抽样调查数据分析中应正确计算抽样误差】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑,
图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。