首页 整群抽样调查数据分析中应正确计算抽样误差

整群抽样调查数据分析中应正确计算抽样误差

整群抽样调查数据分析中应正确计算抽样误差 !!￡煎盈堑芏量一釜垫(】!生】旦塑；旦鲞筻!塑堡!-!』垦P丝!垫!!!：』些!i!!业c】!，丛，1．塑，堕!：1 整群抽样调查数据分析中应正确计算抽样误差吕筠何平平潦文校李立明 ·问题与探讨· 【导读】为了澄清绍群抽样捌奋数据分析巾币确计算抽样误差的必要性，以在某市15岁及以上人群中开展的一次两阶段整群抽样涮查为例，分别采用适用于单纯随机抽样数据的方法和考虑r复杂抽样设计的方法对数据进j，分析。结果罹月i，忽略对复杂抽样设计的考虑，不恰当的采用适Ⅲ于单纯随机抽样数据的方法进ir数据...

!!￡煎盈堑芏量一釜垫(】!生】旦塑；旦鲞筻!塑堡!-!』垦P丝!垫!!!：』些!i!!业c】!，丛，1．塑，堕!：1 整群抽样调查数据分析中应正确计算抽样误差吕筠何平平潦文校李立明 ·问题与探讨· 【导读】为了澄清绍群抽样捌奋数据分析巾币确计算抽样误差的必要性，以在某市15岁及以上人群中开展的一次两阶段整群抽样涮查为例，分别采用适用于单纯随机抽样数据的方法和考虑r复杂抽样设计的方法对数据进j，分析。结果罹月i，忽略对复杂抽样设计的考虑，不恰当的采用适Ⅲ于单纯随机抽样数据的方法进ir数据分析，小仅有可能太大低估样奉统计量的抽样误差，在进行似设检验时，甚至会得到错误的结果，故市确分析和报告整群抽样调查数据的抽样误差是非常必要的。【关键词】整群抽样；单纯随机抽样；抽样误差；复杂调查数据 Estima廿佃0fs帅pli“gerroro¨datjIfr岫cIustersampIesuneyLV且”，HEPzn矿产z”g，丁UWe” z缸D，L，LⅢ2Mg也加r￡㈣f矿印zdPmio￡o删＆ B拼￡n州州，鼬洲o，n6陆地dz旃，尸礤z”g Lhzz聊’痂yH眦z腩＆醒”删＆”￡盯，上}P西ing1【)I)(J83，(：hina (0rr甜加”d：”gn“￡^or：LJL㈨i月g，EInail：lmlcc@pumccducn 【IntmductioⅡ】Toclarlfythenece销ILyorapplylngappmp“atesta“sr；calmeth。dstocalculak 龃mpling叮mrfmmdata。fclustersampIesLLrvey，wecakeatw0_stagcclustcrsample8urveydevelopedfr。m ap。pulaLlonaged15and㈣㈣ampleweusestatjsncalmet}lodsbased。nLh㈦umptlon。f8Im训e randomsamplesandmeLllo出c眦“lderirlgcompkxsampled鹤igntoanalyze。urdaLa，r如pecLlvclyT}啪llgh conlparison，wehopetoshowchep吼e11L1alefkc峙ofuslng1mprop町stati8tlcaImethodSt。estlmate乩mpling ㈣r()nparameterestimatlonandhypothesistesLlngUsillgstandarderroralgoⅢhmsba5edonthe assurnpLlonofmplcmnddmsamples，thestandarderrorsca【culaLedufl啪und吣timatesam—i”gerrorand thehyp。theslst黜Li“geVe“getswrongconch埚ionWhcnthestat；sticalmetho出andstatlsLlcspackagcfor ∞mplcxsurvcydataareaIreadyavallable，1t1snecessa。yr0㈤t0㈣ppmp“atemethods∞analyzeand reponL}1㈨mpllngcrm玮ofdatafmmclustersamplesurvey 【Keywords】clusL⋯am曲ng；slmplerandom8arnpli“g；Sanlpllngermr；Cc)mplcxsuweydata 传统的统汁教学和绝大多数统计书中讲授的统计分析力法都是基于单纯随机抽样的假设。但是，在实际工作中，专、眼人员很少直接采用单纯随机抽样，更多的是采用整群抽样或整合多种抽样方法的多阶段抽样。在分析这样的复杂抽样调查数据时，不假思索的使用传统的统计分析方法很可能会得到错误结果。适当的分析至少要考虑两个方而的问题：一方面是影响样本统计量点值估计的“加权”问题，另一方面是对样本统计量的抽样误差计算问题。从目前国内医学期f{J上发表的大量概率抽样调查报告来看，国内学者普遍缺乏对复杂抽样调查数据分析方法的正确认识和掌握。本文着重讨论常用的两阶段整群抽样调查数据分析中抽样误差的计算，分析抽样误差增大的原因、设计效应以及错误计算复杂抽样调查数据的抽样误差会出现哪些问题，从而作者单位：100083北京大学公共卫生学院流行病与卫牛统计学系通讯作者：李立明，Emalllnllee@p‰educn 说明使用正确的方法计箅抽样误差的必要性。基本原理在概率抽样调查中，抽样误差的大小受样本量、抽样方法等因素的影响。抽样方法一定时，样本量越大，抽样误差越小。样本量一定时，整群抽样的抽样误差通常要比单纯随机抽样大。抽样误差越大．意味着样本统计量的可信区问越宽，估计值的精确度越低。我们通常用标准误来定量估计样本统计量与总体参数之间的差异，即抽样误差。 1整群抽样调查数据抽样误差增大的原因：整群抽样调查数据抽样误差增大主要是因为群内个体在研究的性状上趋向于同质，而群问的变异性加大。以图l为例，假定某街道有6个小区(如图1左侧)，每个小区中有10幢房屋。我们用圆圈表示普通房屋，十字框表示豪华房屋，可见该街道普通房屋和豪华房屋各占一半，普通房屋和豪华房屋的分布存在万方数据 !堑盟盟堑芏型查!!塑生!旦蔓塑董墨!塑处!』Eet!!m·型．』!!!!壁；!竖!!尘!：塑，堕!．! 明显的聚集性。如果我们想通过整群抽样调查了解街道中普通房屋的比例，以小区为抽样单位，抽取2 个小区共20户进行调查。图l右侧的表格中列出了所有可能的抽样组合及计算的样本统计量。已知整个街道中普通房屋的比例为O．50，15种组台的平均值也为O．50。但是，这15种组合之问存在很大的变异，其中6个估计值≥O．80或≤020(在表格中用*标记)，误差很大。这个例子反映了当性状在群内趋于同质、而群问变异很大时，整群抽样数据样本统计量的抽样提差会很人。总体抽取两十小巨 (秆奉中。埒棒的阮铡) №R∞十E≈ Q口月d勺m倒 '2 {W2D=095’ 23 '7mO=日85_ '3 tW20=080‘ 2 4 13＆0邮" 1 4 12＆0E0舯 2 6 "f2。神55 1 8 1口瑚=050 2 5 10，2口=口50 3 4 1w20=050 1 5 *20=045 3 e e，2D=O4m 3} WH哪35 4．6 帕口詈。．拍‘ 45 3nO一015- 56 1m0；005‘ 圄1 1811群抽样调杳不意罔 2．没计效应：在公式l巾，”(，)表示整群抽样时样本统计量的方差；当假定抽样方法为单纯随机抽样时，方差为％。(j)。两者的比值d2称为设计效应(desigzzerfecI)。设计效应反映了整群抽样时样本统计量的精确度损失。整群抽样调查抽样误差增大直接影响到调查设计时样本量的估算。例如，根据既往相同人群中开展的同类研究，我们了解到某项指标的整群抽样设计效应为扩=3．13。在设计一项新的调查时，当要求的容许瀑差一定时，如果开展单纯随机抽样需要调查200 人，则进行整群抽样调查时需要调查200×313二=626 人，才可以满足设计者对调查精确度的要求。在流行病学教材中，当介绍整群抽样时，通常会有这样的陈述：“群间变异越小，群的规模越小，抽取的群越多，获得样本统计量的精确度就越好。由于抽样误差增大，所以建议整群抽样的样本量比单纯随机抽样增加1／2”。实际上，这种经验的总结也是基于上面介绍的原理。其中建议的整群抽样的样本量增加 1／2，是按整群抽样的设计效应为15来考虑的。 3错误计算抽样误差对参数估计和假设检验的影响：经整群抽样调查获得的数据，如果仍按基于单纯随机抽样假设的传统统计方法进行分析，在参数估计中，计算得到的标准误很有可能会低估样本统计昔的抽样误差，有时差距可高达几}_倍，使人们对研究结果的精确度产生错误的认识，影响进一步的研究实践或卫生决策。如果继续进行假醴榆验，抽样误差的低估会导致检验的I类错误概率增大，可能得到假阳性的错误结沦。 4．统计学分析软什：目前，多数分析复杂概率抽样的统计方法已经可以通过统计软件实现，流行病学专业人员在对基本概念有一定的理解后就可方便的使用。例如，EpiInfo中前缀为ComplexsampIc 的分析菜单；sAS中的“Procsurvey”模块；sPss中的“compIcxSaml)lcs”菜单；stata中的“suⅣevd“a 8nalys≯菜单。除此之外，sI-daan是专门用来分析复杂抽样调查数据或类似结构数据的统计软件，还有一些其他软件，如cENVAR、VPLX、wesVar等。实例分析我们在某市15岁及以上居民中开展了一次抽样调查，了解居民日常获取健康信息的土要途径。抽样设计为两阶段整群抽样。第一阶段，以村／居委会为抽样单位，共抽取14个村／居委会。第二阶段，在抽到的村／居委会中进一步随机抽取一定数量的个体进行调查。最终，调查了604人，每个村／居委会调查 22～78人不等。统计学分析使用stara／MP10．0f01 Windows(Stata肠rpLP，TX77845USA)完成。 1参数估计：袭1中展示了按单纯随机抽样和两阶段整群抽样分别得到的样本统计量的标准误。分析的两个变量为居民中收看电视的比例(588／ 604)和收听广播的比例(137／604)。由表1可见：① 样本统计量(即两种行为在调查人群中的比例)的点估计不会因为是否考虑抽样方法而发生改变，点值火小只受加权处理的影响。②在正确考虑了整群抽样的设计特征后，两个变量的标准误均增大，尤其是 “广播”变量，标准误由0．0171增加到O0790。从计算的设计效应的火小也可以看出同样的规律，“电视”变量的设计效应为229，而“广播”变量的设计效应高达2146。可见，如果错误的按单纯随机抽样进行分析，会显著低估样本统计量的抽样误差。根据正确的分析，本次调查得到的“广播”变量的95％可 "@巫％万方数据 !垩煎鱼堕芏壁生型【l!至l旦璺塑鲞受!型。蔓jt!』垦P-!!里塑1．』!!塑!!!!!!，∑!!!!，№：! 信区问非常宽，容许误差高达017，相对洪差达 74％，结果精确度很低，提醒读者在参考这个结果时要谨慎。为什么整群抽样设计会对“广播”变量的抽样误差有这么大的影响?我们进一步分析了“电视”变量和“广播”变量在各个村／居委会中的比例。由于每个村／居委会中调查的人数很少，得到的比例不能作为该村／居委会人群行为水甲的真实反映。但是，该分析町以提供一些线索。由图2和图3可见，“电视”变量的群间变异(88％～100％)不是很大；而“广播”变量的群间变异却是相当明显(4％～100％)。收听广播这个行为在同·村／居委会中有同质的倾向。表1 居民中收看电视和收听广播的比例——不同统】；r分析方法对样本统计量抽样误差大小的影响享屡薯蓝露廿怖擎纯随机拙样假设，应采用Pearson矿检验。如果考虑了整群抽样设计，Stata软件中默认的计算方法是 Rao和Scott校正法，提供了F统计量，并给出相应的P值。从表2中可以看到，基于不同抽样方法分析得到的P值都不同。与单纯随机抽样相比，在正确考虑了整群抽样的设计特征后，P值一致增大。 “向专业人员咨询”这个变量的检验结论甚至发生 “质”的变化：考虑了整群抽样的统计分析表明城乡无差异(P=0．27)，而基丁单纯随机抽样的分析却得到了城乡有差异的假阳性结果(P<0001)。萝叵丑鲁担 I 鲁 # ； ⋯圈嚯⋯崩．亳．1忍m．1 2 3 4 5 6 7 8 9】Oll 12 1314 村／培垂会编号图3 各村／居委会人群中收听广播的比例结语以P实例分析表明，忽略了整群抽样设计，错误的按单纯随机抽样假殴的传统方法对数据进行分析，不仅有可能大大低估抽样误差，无法正确认识样本统计量的精确度水平；在进行假设检验时，甚至有可能得到错误的结果。建议研究者在分析复杂抽样调查数据时能够使用正确的统计分析方法；在撰写论文时，清晰介绍调查的抽样设计和使用的统计分析方法，并报告结果的点估计值和可信区间。同时，也建议科技期刊能将此要求纳入审稿的标准中。另外，鼓励研究者能够计算并在投稿论文中报告调查中主要指标的设计效应，今后如果开展类似研究，这个参数可作为研究设计时的重要参考。表2 城乡居民3个变量分布比较分析——不同统计分析方法对假设检验结果影响变量可F堂一丽～分析方法检验统计母 P值收听J一播城市：110／300 城市：037 单纯 P㈣Y2=6647 <000l 农村：27／304 农村：009 整群 F(1，I3)=750 O017 阅读书籍城市：44f299 城市：0 15 单纯 P㈣n'21503 (000L 农村：16／304 农村：0 05 整群 F(1．13)=558 O03 向专业人员咨询城市：211／299 城市：0 7l 单纯 P㈣n一=1573

                    本文档为【整群抽样调查数据分析中应正确计算抽样误差】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

整群抽样调查数据分析中应正确计算抽样误差

你可能还喜欢