关闭

关闭

关闭

封号提示

内容

首页 第11章 方差分析.pdf

第11章 方差分析.pdf

第11章 方差分析.pdf

上传者: Gingerjin 2012-07-26 评分 0 0 0 0 0 0 暂无简介 简介 举报

简介:本文档为《第11章 方差分析pdf》,可适用于工程科技领域,主题内容包含第十一章方差分析我们已经作过两个总体均值的假设检验如两台机床生产的零件尺寸是否相等病人和正常人的某个生理指标是否一样。如果把这类问题推广一下要检验两符等。

第十一章方差分析我们已经作过两个总体均值的假设检验如两台机床生产的零件尺寸是否相等病人和正常人的某个生理指标是否一样。如果把这类问题推广一下要检验两个以上总体的均值彼此是否相等仍然用以前介绍的方法是很难做到的。而你在实际生产和生活中可以举出许多这样的问题:从用几种不同工艺制成的灯泡中各抽取了若干个测量其寿命要推断这几种工艺制成的灯泡寿命是否有显著差异用几种化肥和几个小麦品种在若干块试验田里种植小麦要推断不同的化肥和品种对产量有无显著影响。可以看到为了使生产过程稳定达到优质、高产需要对影响产品质量的因素进行分析找出有显著影响的那些因素除了从机理方面进行研究外常常要作许多试验对结果作分析、比较寻求规律。用数理统计分析试验结果、鉴别各因素对结果影响程度的方法称为方差分析(AnalysisOfVariance)记作ANOVA。人们关心的试验结果称为指标试验中需要考察、可以控制的条件称为因素或因子因素所处的状态称为水平。上面提到的灯泡寿命问题是单因素试验小麦产量问题是双因素试验。处理这些试验结果的统计方法就称为单因素方差分析和双因素方差分析。单因素方差分析只考虑一个因素A对所关心的指标的影响A取几个水平在每个水平上作若干个试验试验过程中除A外其它影响指标的因素都保持不变(只有随机因素存在)我们的任务是从试验结果推断因素A对指标有无显著影响即当A取不同水平时指标有无显著差别。A取某个水平下的指标视为随机变量判断A取不同水平时指标有无显著差别相当于检验若干总体的均值是否相等。数学模型设A取r个水平rAAA,,,L在水平iA下总体ix服从正态分布),(σμiNri,,L=这里,σμi未知iμ可以互不相同但假定ix有相同的方差。又设在每个水平iA下作了in次独立试验即从中抽取容量为in的样本记作iijnjx,,,L=ijx服从),(σμiNinjri,,,,,LL==且相互独立。将这些数据列成表(单因素试验数据表)的形式。表单因素试验数据表Axx…nxAxx…nx……………rArxrx…rrnx将第i行称为第i组数据。判断A的r个水平对指标有无显著影响相当于要作以下的假设检验rHμμμ===L:rHμμμ,,,:L不全相等由于ijx的取值既受不同水平iA的影响又受iA固定下随机因素的影响所以将它分解为ijiijxεμ=ri,,L=inj,,L=()其中),(~σεNij且相互独立。记==riiinnμμ==riinnμμα=iiri,,L=()μ是总均值iα是水平iA对指标的效应。由()、()模型可表为=====iijriiijiijnjriNx,,,,,),,(~LLσεαεαμ()原假设为(以后略去备选假设):====rHαααL()统计分析记=•=injijiixnx===rinjijixnx()•ix是第i组数据的组平均值x是总平均值。考察全体数据对x的偏差平方和===rinjijTixxS)(()经分解可得==•=•=rinjiijriiiTixxxxnS)()(记=•=riiiAxxnS)(()==•=rinjiijEixxS)(()则EATSSS=()AS是各组均值对总方差的偏差平方和称为组间平方和ES是各组内的数据对均值偏差平方和的总和。AS反映A不同水平间的差异ES则表示在同一水平下随机误差的大小。注意到=•injiijxx)(是总体),(σμiN的样本方差的in倍于是有)(~)(=•injiijnxxiχσ由χ分布的可加性知=riiEnS)(~χσ即)(~rnSEχσ且有)(σrnESE=()对AS作进一步分析可得==riiiAnrES)(ασ()当H成立时)(σ=rESA()可知若H成立AS只反映随机波动而若H不成立那它就还反映了A的不同水平的效应iα。单从数值上看当H成立时由()、()对于一次试验应有)()(rnSrSEA而当H不成立时这个比值将远大于。当H成立时该比值服从自由度=rn)(rnn=的F分布即),(~)()(rnrFrnSrSFEA=()为检验H给定显著性水平α记F分布的α分位数为))(,(rnrFα检验规则为))(,(rnrFF<α时接受H否则拒绝。以上对TEASSS,,的分析相当于对组间、组内等方差的分析所以这种假设检验方法称方差分析。方差分析表将试验数据按上述分析、计算的结果排成表的形式称为单因素方差分析表(Matlab中给出的方差分析表)。表单因素方差分析表方差来源平方和自由度均方rp分位数概率因素AASr=rSSAA),(rnrFrprp误差ESrnrnSSEE=总和TSn最后一列给出大于F值的概率rp))(,(rnrFFrp<α相当于α>rp。方差分析一般用的显著性水平是:取=α拒绝H称因素A的影响(或A各水平的差异)非常显著取=α不拒绝H但取=α拒绝H称因素A的影响显著取=α不拒绝H称因素A无显著影响。Matlab实现Matlab统计工具箱中单因素方差分析的命令是anoval。若各组数据个数相等称为均衡数据。若各组数据个数不等称非均衡数据。()均衡数据处理均衡数据的用法为:p=anoval(x)返回值p是一个概率当pα>时接受Hx为rm的数据矩阵x的每一列是一个水平的数据(这里各个水平上的样本容量mni=)。另外还输出一个方差表和一个Box图。例为考察名工人的劳动生产率是否相同记录了每人天的产量并算出其平均值如表。你能从这些数据推断出他们的生产率有无显著差别吗?表工人天AAAAA平均产量解编写程序如下:x=p=anova(x)求得=>=αp故接受H即名工人的生产率没有显著差异。方差表对应于上面的单因素方差分析表的~列=F是),(F分布的p分位数可以验证fcdf(,,)==pBox图反映了各组数据的特征。注:接受H是将名工人的生产率作为一个整体进行假设检验的结果并不表明取其中个工人的生产率作两总体的均值检验时也一定接受均值相等的假设。实际上读者可以用ttest对本题作:μμ=H的检验看看会得到什么结果。()非均衡数据处理非均衡数据的用法为:p=anova(x,group)x为向量从第组到第r组数据依次排列group为与x同长度的向量标志x中数据的组别(在与x第i组数据相对应的位置处输入整数),,,(riiL=)。例用种工艺生产灯泡从各种工艺制成的灯泡中各抽出了若干个测量其寿命结果如下表试推断这几种工艺制成的灯泡寿命是否有显著差异。表工艺AAAA序号解编写程序如下:x=x=x(:),x(),x(:),x(:),x(:)g=ones(,),*ones(,),*ones(,),*ones(,)p=anova(x,g)求得<p=<所以几种工艺制成的灯泡寿命有显著差异。多重比较在灯泡寿命问题中为了确定哪几种工艺制成的灯泡寿命有显著差异我们先算出各组数据的均值:工艺AAAA均值虽然A的均值最大但要判断它与其它几种有显著差异还需做多重比较。一般多重比较要对所有r个总体作两两对比分析相互间的差异。根据问题的具体情况可以减少对比次数。对于上述问题Matlab多重比较的程序为x=x=x(:),x(),x(:),x(:),x(:)g=ones(,),*ones(,),*ones(,),*ones(,)p,t,st=anova(x,g)c,m,h,nms=multcompare(st)nmsnumcell(m)双因素方差分析如果要考虑两个因素BA,对指标的影响BA,各划分几个水平对每一个水平组合作若干次试验对所得数据进行方差分析检验两因素是否分别对指标有显著影响或者还要进一步检验两因素是否对指标有显著的交互影响。数学模型设A取r个水平rAAA,,,LB取s个水平sBBB,,,L在水平组合),(jiBA下总体ijx服从正态分布),(σμijNri,,L=sj,,L=。又设在水平组合),(jiBA下作了t个试验所得结果记作ijkxijkx服从),(σμijNri,,L=sj,,L=tk,,L=且相互独立。将这些数据列成表的形式。表双因素试验数据表BB…sBAtxxLtxxL…stsxxLAtxxLtxxL…stsxxLMMMMMrAtrrxxLtrrxxL…rstrsxxL将ijkx分解为ijkijijkxεμ=ri,,L=sj,,L=tk,,L=()其中),(~σεNijk且相互独立。记===risjijrsμμ=•=sjijisμμμμα=•ii=•=riijjrμμμμβ=•jjjiijijβαμμγ=()μ是总均值iα是水平iA对指标的效应jβ是水平jB对指标的效应ijγ是水平iA与jB对指标的交互效应。模型表为============tksjriNxijkrisjrisjijijjiijkijjiijk,,,,,,,,),,(~,,LLLσεγγβαεγβαμ()原假设为),,(:riHiL==α()),,(:sjHjL==β()),,,,(:sjriHijLL===γ()无交互影响的双因素方差分析如果根据经验或某种分析能够事先判定两因素之间没有交互影响每组试验就不必重复即可令=t过程大为简化。假设=ijγ于是jiijβαμμ=ri,,L=sj,,L=此时模型()可写成=======sjriNxijrisjjiijjiij,,,,,),,(~,LLσεβαεβαμ()对这个模型我们所要检验的假设为式()和式()。下面采用与单因素方差分析模型类似的方法导出检验统计量。记===risjijxrsx=•=sjijixsx,=•=riijjxrx===risjijTxxS)(其中TS为全部试验数据的总变差称为总平方和对其进行分解===risjijTxxS)(==•=•=••=risjjriissjiijxxrxxsxxxx)()()(BAESSS=可以验证在上述平方和分解中交叉项均为。其中==••=rissjiijExxxxS)(=•=riiAxxsS)(=•=sjjBxxrS)(我们先来看看AS的统计意义。因为•ix是水平iA下所有观测值的平均所以=•riixx)(反映了•••rxxx,,,L差异的程度。这种差异是由于因素A的不同水平所引起的因此AS称为因素A的平方和。类似地BS称为因素B的平方和。至于ES的意义不甚明显我们可以这样来理解:因为BATESSSS=()在我们所考虑的两因素问题中除了因素A和B之外剩余的再没有其它系统性因素的影响因此从总平方和中减去AS和BS之后剩下的数据变差只能归入随机误差故ES反映了试验的随机误差。有了总平方和的分解式BAETSSSS=以及各个平方和的统计意义我们就可以明白假设()的检验统计量应取为AS与ES的比。和一元方差分析相类似可以证明当H成立时)))((,(~))((=srrFsrSrSFEAA()当H成立时)))((,(~))((=srsFsrSsSFEBB()检验规则为)))((,(<srrFFAα时接受H否则拒绝H)))((,(<srsFFBα时接受H否则拒绝H。我们可以写出方差分析表如表所示。表无交互效应的两因素方差分析表方差来源平方和自由度均方F比因素AASr=rSSAAEASS因素BBSs=sSSBBEBSS误差ES))((sr))((=srSSEE总和TSrs关于交互效应的双因素方差分析与前面方法类似记====risjtkijkxrstx=•=tkijkijxtx==••=sjtkijkixstx==••=ritkijkjxrtx将全体数据对x的偏差平方和====risjtkijkTxxS)(()进行分解可得ABBAETSSSSS=()其中===•=risjtkijijkExxS)(=••=riiAxxstS)(=••=sjjBxxrtS)(==•••••=risjjiijABxxxxtS)(称ES为误差平方和AS为因素A的平方和(或行间平方和)BS为因素B的平方和(或列间平方和)ABS为交互作用的平方和(或格间平方和)。可以证明当H成立时))(),)(((~)())((=trssrFtrsSsrSFEABAB()据此统计量可以检验H。检验因子A和B的各个水平的效应是否有差异与中的检验是一样的。将试验数据按上述分析、计算的结果排成表的形式称为双因素方差分析表。表关于交互效应的两因素方差分析表方差来源平方和自由度均方F比因素AASr=rSSAAEASS因素BBSs=sSSBBEBSS交互效应ABS))((sr))((=srSSABABEABSS误差ES)(trs)(=trsSSE总和TSrstMatlab实现统计工具箱中用anova作双因素方差分析。命令为p=anova(x,reps)其中x不同列的数据表示单一因素的变化情况不同行中的数据表示另一因素的变化情况。如果每种行列对(“单元”)有不止一个的观测值则用参数reps来表明每个“单元”多个观测值的不同标号即reps给出重复试验的次数t。下面的矩阵中列因素有种水平行因素有两种水平但每组水平有两组样本相应地用下标来标识:xxxxxxxxxxxx例一种火箭使用了四种燃料、三种推进器进行射程试验对于每种燃料与每种推进器的组合作一次试验得到试验数据如表。问各种燃料之间及各种推进器之间有无显著差异?表火箭试验数据BBBAAAA解记燃料为因素A它有个水平水平效应为,,,,=iiα。推进器为因素B它有个水平水平效应为,,,=jjβ。我们在显著性水平=α下检验:====ααααH:===βββH编写如下的Matlab程序:x=p,t,st=anova(x)求得p=表明各种燃料和各种推进器之间的差异对于火箭射程无显著影响。例一火箭使用了种燃料种推进器作射程试验每种燃料与每种推进器的组合各发射火箭次得到如表结果。表火箭试验数据BBBA,,,A,,,A,,,A,,,试在水平下检验不同燃料(因素A)、不同推进器(因素B)下的射程是否有显著差异?交互作用是否显著?解编写程序如下:clc,clearx=,,,,,,,,,,,,x=x(:,::)x=x(:,::)fori=:x(*i,:)=x(i,:)x(*i,:)=x(i,:)endp,t,st=anova(x,)求得p=表明各试验均值相等的概率都为小概率故可拒绝均值相等假设。即认为不同燃料(因素A)、不同推进器(因素B)下的射程有显著差异交互作用也是显著的。正交试验设计与方差分析前面介绍了一个或两个因素的试验由于因素较少我们可以对不同因素的所有可能的水平组合做试验这叫做全面试验。当因素较多时虽然理论上仍可采用前面的方法进行全面试验后再做相应的方差分析但是在实际中有时会遇到试验次数太多的问题。如三因素四水平的问题所有不同水平的组合有=种在每一种组合下只进行一次试验也需做次。如果考虑更多的因素及水平则全面试验的次数可能会大得惊人。因此在实际应用中对于多因素做全面试验是不现实的。于是我们考虑是否可以选择其中一部分组合进行试验这就要用到试验设计方法选择合理的试验方案使得试验次数不多但也能得到比较满意的结果。用正交表安排试验正交表是一系列规格化的表格每个表都有一个记号如)(L见表。表正交表)(L列号试验号从表可见)(L有行列表中由数字组成。正交表的特点:()每列中数字出现的次数相同如)(L表每列中数字均出现三次。()任取两列数字的搭配是均衡的如)(L表里每两列中),(),(…),(九种组合各出现一次。这种均衡性是一般正交表构造的特点它使得根据正交表安排的试验其试验结果具有很好的可比性易于进行统计分析。用正交表安排试验时根据因素和水平个数的多少以及试验工作量的大小来考虑选用哪张正交表下面举例说明。例为提高某种化学产品的转化率(%)考虑三个有关因素:反应温度A()反应时间B(min)和使用催化剂的含量C(%)。各因素选取三个水平如表所示。表转化率试验因素水平表因素水平温度A时间B催化剂含量C如果做全面试验则需=次若用正交表)(L仅做次试验。将三个因素CBA,,分别放在)(L表的任意三列上如将BA,分别放在)(L的第列上C放在)(L的第列上。将表中CBA,,所在的三列上的数字分别用相应的因素水平去替代得次试验方案。以上工作称为表头设计。再将次试验结果转化率数据列于表上(见表)。表转化率试验的正交表因素试验号反应温度A反应时间B催化剂含量C转化率()()()()()()()()()()()()()()()()()()()()()()()()()()()解我们这里不作统计分析直接利用Matlab多因素方差分析的函数anovan进行求解程序如下:y=g=g=g=p,t,st=anovan(y,{g,g,g})求得概率p=可见因素CB、的各水平对指标值的影响有显著差异(显著性水平取)而因素A的各水平对指标值的影响无显著差异。习题十一将抗生素注入人体会产生抗生素与血浆蛋白质结合的现象以致减少了药效。表列出种常用的抗生素注入到牛的体内时抗生素与血浆蛋白质结合的百分比。试在水平=α下检验这些百分比的均值有无显著的差异。设各总体服从正态分布且方差相同。表青霉素四环素链霉素红霉素氯霉素为分析种化肥和个小麦品种对小麦产量的影响把一块试验田等分成小块对种子和化肥的每一种组合种植小块田产量如表所示(单位公斤)问品种、化肥及二者的交互作用对小麦产量有无显著影响。表化肥AAAAB,,,,,,,,B,,,,,,,,品种B,,,,,,,,.(三因素方差分析)某集团为了研究商品销售点所在的地理位置、销售点处的广告和销售点的装潢这三个因素对商品的影响程度选了三个位置(如市中心黄金地段、非中心的地段、城乡结合部)两种广告形式两种装潢档次在四个城市进行了搭配试验。表是销售量的数据试在显著水平下检验不同地理位置、不同广告、不同装潢下的销售量是否有显著差异?表三因素方差数据城市号水平组合CBACBACBACBACBACBACBACBACBACBACBACBA

用户评论(0)

0/200

精彩专题

上传我的资料

每篇奖励 +2积分

资料评价:

/13
0下载券 下载 加入VIP, 送下载券

意见
反馈

立即扫码关注

爱问共享资料微信公众号

返回
顶部