首页 应用多元统计分析课后答案_朱建平版

应用多元统计分析课后答案_朱建平版

举报
开通vip

应用多元统计分析课后答案_朱建平版应用多元统计分析课后答案_朱建平版 第二章 2.1.试叙述多元联合分布和边际分布之间的关系。 ,解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,的XXXX,(,,)?12p ,联合分布密度函数是一个p维的函数,而边际分布讨论是的子向量的XXXX,(,,)?12p概率分布,其概率密度函数的维数小于p。 ,2.2设二维随机向量服从二元正态分布,写出其联合分布和各边缘分布。 ()XX12 2,,,,112,,,,解:设的均值向量为,协方差矩阵为,则其联μ,()XX,,,,12122,,212,,合分布密度...

应用多元统计分析课后答案_朱建平版
应用多元统计 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 课后答案_朱建平版 第二章 2.1.试叙述多元联合分布和边际分布之间的关系。 ,解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,的XXXX,(,,)?12p ,联合分布密度函数是一个p维的函数,而边际分布讨论是的子向量的XXXX,(,,)?12p概率分布,其概率密度函数的维数小于p。 ,2.2设二维随机向量服从二元正态分布,写出其联合分布和各边缘分布。 ()XX12 2,,,,112,,,,解:设的均值向量为,协方差矩阵为,则其联μ,()XX,,,,12122,,212,,合分布密度函数为 ,1/2,1222,,,,,,,,,,11,,,,112112。 ,f()exp()()xx,,,,μxμ,,,,,,,,222,,,,2,,,,,,,212212,,,, ,2.3已知随机向量的联合密度函数为 ()XX12 2[()()()()2()()]dcxabaxcxaxc,,,,,,,,1212 fxx(,),1222()()badc,, 其中,。求 axb,,cxd,,12 (1)随机变量和的边缘密度函数、均值和方差; XX12 (2)随机变量X和X的协方差和相关系数; 12 (3)判断XX和是否相互独立。 12 XX(1)解:随机变量和的边缘密度函数、均值和方差; 12 d2[()()()()2()()]dcxabaxcxaxc,,,,,,,,1212 fxdx(),1x22,1c()()badc,, dd2()()2[()()2()()]dcxaxbaxcxaxc,,,,,,,12212,,dx 22222,c()()()()badcbadc,,,,c d,dc2()()2[()2()]dcxaxbatxat,,,,,121,,dt 2222,0()()()()badcbadc,,,,c dc,d222()()[()2()]1dcxaxbatxat,,,,,121 ,,,2222()()()()badcbadcba,,,,,c0 所以 2ba,,,ba,由于服从均匀分布,则均值为,方差为。 X1212 1,xcd,,dc,,,,1同理,由于服从均匀分布,则均值为,Xfx,()dc,,2x222,其它0, 2dc,,,方差为。 12 (2)解:随机变量和的协方差和相关系数; XX12 cov(,)xx12 dbabdc,,2[()()()()2()()]dcxabaxcxaxc,,,,,,,,,,,,1212,,,xxdxdx1212,,,,,,22ca22()()badc,,,,,, ()()cdba,,, 36 cov(,)1xx12 ,,,3,,xx12 (3)解:判断X和X是否相互独立。 12 fxxfxfx(,)()(),X和X由于,所以不独立。 1212xx1212 ,XXXX,(,,)?2.4设服从正态分布,已知其协方差矩阵,为对角阵,证明其分量是相12p 互独立的随机变量。 ,XXXX,(,,)?解: 因为的密度函数为 12p p11,,,1/2,,,1,fxx(,...,)exp()(),,,,ΣxμΣxμ ,,1p,,22,,,,, 2,,,1,,2,2,,又由于 Σ,,,?,,2,,,p,, 222 Σ,,,,?12p 1,, 2,,,1,, ,,1 ,,21, Σ,,2,, ,,? ,,1,,2,,p,,, 则 fxx(,...,)1p ,,1,, ,,2,,,1,,,, ,,,,1p,1/211,,,,,,2,2221,,,,,,,Σ?exp()()xμΣxμ,,,,2,,p12,,,,22,,,,,,,?,,,,1,,,,2,,,,p,,,,, p222,,()x,,,1()x,,()x1111,,,,,,pp2311 ,,,,,?exp...,,,,,,,12p,,222222,,,2,,,,,12p,, 2p,,()x,,1ii,,,exp()...()fxfx ,,,1p22,2,,,i1i,,i 则其分量是相互独立。 2.5由于多元正态分布的数学期望向量和均方差矩阵的极大似然分别为 n ˆ μXX,,n,i,1i nˆ, ΣXXXX,,,n()(),ii,1i 35650.00,, ,,12.33,,ˆμX,, ,,17325.00 ,,,,152.50,, 201588000.0038900.0083722500.00-736800.00,, ,,38900.0013.06716710.00-35.80,,ˆ Σ,,,83722500.0016710.0036573750.00-199875.00 ,,,,-736800.00-35.800-199875.0016695.10,, 10,, 11,,,,I,?,注:利用 , S 其中 ,,XIX11()XX,1nnnnpn,1,,nn,,01,, 在SPSS中求样本均值向量的操作步骤如下: 1. 选择菜单项Analyze?Descriptive Statistics?Descriptives,打开Descriptives对话框。 将待估计的四个变量移入右边的Variables列表框中,如图2.1。 图2.1 Descriptives对话框 2. 单击Options按钮,打开Options子对话框。在对话 框中选择Mean复选框,即计算样本均值向量,如图2.2所示。单击Continue按 钮返回主对话框。 图2.2 Options子对话框 3. 单击OK按钮,执行操作。则在结果输出窗口中给出样本均值向量,如表2.1,即 样本均值向量为(35.3333,12.3333,17.1667,1.5250E2)。 表2.1 样本均值向量 在SPSS中计算样本协差阵的步骤如下: 1. 选择菜单项Analyze?Correlate?Bivariate,打开 Bivariate Correlations对话框。将三个变量移入右边的Variables列表框中,如图 2.3。 图2.3 Bivariate Correlations对话框 2. 单击Options按钮,打开Options子对话框。选择 Cross-product deviations and covariances复选框,即计算样本离差阵和样本协差 阵,如图2.4。单击Continue按钮,返回主对话框。 图2.4 Options子对话框 3. 单击OK按钮,执行操作。则在结果输出窗口中给 出相关分析表,见表2.2。表中Covariance给出样本协差阵。(另外,Pearson Correlation为皮尔逊相关系数矩阵,Sum of Squares and Cross-products为样本离 差阵。) 2.6 无偏性;渐近无偏性、有效性和一致性; 2.7 设总体服从正态分布,,有样本。由于是相互独立的正X~(,)NμΣXXXX,,...,p12n 态分布随机向量之和,所以也服从正态分布。又 X nnn,, EEnEnn()XXXμμ,,,,,,,,,ii,,,,,111iii,, nnn11Σ,, DDnD()XXX,,,,Σ,,,,,ii,,22nnn,,,111iii,, X~(,)NμΣ所以。 p n1ˆ,2.8 方法1: ΣXXXX,,,()(),iin,1,1i n1,, ,,XXXXn,iin,1,1i n1ˆ,, EEnΣXXXX,,()(),iin,1,1i n1,,,,EnEXXXX ,,,,,,,ii,,n,1,1i,, n11Σ,,nn 。 ,,,,,ΣΣΣ(1),,,nnn,,11,1,,i n ,方法2: SX-X)(X-X,(),ii1i, n, ,,,,X-μ((Xμ)X-μXμ),,,,,,ii,,,,1i, nn ,,, ,,,,,()()2()()()X-μX-μX-μX-μnXμ)(XμXμ,,iii,,11ii n ,,, ,,,,,,,()()2()()X-μX-μnnXμ)(XμXμ)(Xμ,ii,1i n ,, ,,,,()()()X-μX-μnXμ)(Xμ,ii,1i nS1,,,, EEn()()()(),,,,X-μX-μXμ)(Xμ,ii,,nn,,11,1,,i n1,,,, 。 EnEX-μX-μXμ)(XμΣ,,,,,()()(),ii,,n,1,1,,i SΣ故为的无偏估计。 n,1 S2.9.设X,X,...,XX~(,)NμΣ是从多元正态分布抽出的一个简单随机样本,试求(1)(2)()np 的分布。 证明: 设 ***?,, ,,***?,, ,Γ,,(),,,ΓΓI,为一正交矩阵,即。 ***?ij,,111,,?,,nnn,, ,Ζ=(ΖΖΖ)=XXXΓ??令, ,,12n12n 由于独立同正态分布且为正交矩阵X(1,2,3,4,),in,?Γ i ,(),,,,,?独立同正态分布所以。且有 12n nn11Var()Z,Σ,,。 ΖΧ,EEnΖΧμ,,()(),,nnininn,1,1ii n EEran()()(1,2,3,,1)ΖΧ,,,?,aajj,1j n1 ,nrμ,ajn,1j n , ,,nrrμ0,ajnj,1i n VarVarr()()ΖΧ,,aajj,1j nn22 ,,,rVarrΧΣΣ,,,,ajjaj,,jj11 所以独立同分布。 ΖΖΖ?N(0,)Σ121n, n ,又因为 SXXXX,,,()(),jji1, n ,,,,XXXXn ,jjj,1 ,nn11,,,,,,nnnnXXXXZZ,,因为 ,,iinn,,,,nn,,11ii,,,, ,X,,1,,n,X,,2,,,XX,XX?X又因为 ,12jjn,,?j,1,,,,,Xn,, ,X,,1,,,X2,,,,XXX?ΓΓ ,,12n,,? ,,,,,X,,n ,Z,,1,,,Z2,,,ZZZ? ,,12n,,? ,,,,,Z,,nnn ,,,,XX,ZZ,ZZ,ZZ所以原式 ,,jjnnjjnn,1,1jj ,,,, ZZZZZZ-...ΖΖ,,,,1122nnnn n,1 ,故,由于独立同正态分布,所以 S,,,N(0,)ΣZZZ,,,?,pjj121n,j,1 n,1 , S,,,,,~(1,)Wn,jjpj,1 2.10.设是来自的简单随机样本,, N(,)μΣXnp(),ik,1,2,3,,?piiii (1)已知且,求和的估计。 Σμμμμμ,,,,...ΣΣΣΣ,,,,...12k12k(2)已知求和Σ的估计。 ΣΣΣΣ,,,,...μμμ,,...,,12k12k nka1aˆ解:(1), μxx,,,,innn,,,...,,11ai12k nka,aaxxxx,,,,,,,,ii,,11aiˆ Σ,nnn...,,,12k (2) ln(,,,)LμμΣ?1k nka,2n1-1paa,,, ,,2,Σ(x-μ)Σ(x-μ)ln()exp[],,iaia,,2,,11ai nka11n-1aa, μ,ΣΣ,,,,,(x-μ)Σ(x-μ)ln()ln()lnLpn2,,iaia222,,11ai nka2,ln(,)1LnμΣ,,11aa, ,,,,,,ΣXμXμΣ()()0,,,,iaia,Σ22,,11ai nj,ln(,)LμΣj,1,,,,Σ()0(1,2,...,)Xμjk ,ijj,μi,1j 解之,得 njk,xxxx,,,,,,n,,ijijjjj1,,11jiˆˆμ,,xx, Σ,,jjijnnnn...,,,i,1j12k 第三章 3.1 试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。 其基本思想和步骤均可归纳为: 答: 第一,提出待检验的假设和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出 决策(拒绝或接受)。 均值向量的检验: 统计量 拒绝域 在单一变量中 ()X,,20当已知 zn, ,||zz,,/2, ()X,,20tn,当未知 ,||(1)ttn,,,/2S n1222 (作为的估计量) ,SXX,,(),in,1,1i 一个正态总体 H:μμ,00 212,22,Σ协差阵已知 Tnp()()~(),T,,,,,XμΣXμ,0000 np(1)1np,,,,22Σ协差阵未知 TF,TFpnp~(,),,(1)np,(1)np, 21,, () Tnnn,,,,(1)[()()]XμSXμ00 两个正态总体 H:μμ,012 nm,212,22,Tp()()~(),有共同已知协差阵 ,,,XYΣXYT,,0,0nm, (2)1nmp,,,,2有共同未知协差阵 FF, FTFpnmp,,,,~(,1),(2)nmp,, ,,,,,nmnm,,21,(其中 ) Tnm(2)()(),,,,,XYSXY,,,,nmnm,,,,,, ()npn,-1,FF,协差阵不等 n,mFFpnp,,ZSZ~(,),p ()npn,-1,FF,协差阵不等 ZSZ n,mFFpnp,,~(,),p H:,,,,?,,多个正态总体 012k SSAk(1),FF,单因素方差 FFknk,,,~(1,),SSEnk(), EE多因素方差 ,,,,,,~(,,1)pnkkTAE, 协差阵的检验 检验 ΣΣ,0 np/21en/2,,,, H:Σ,I,,,SSexptr,,0p,,2n,,,, np/2n/21e,,,,** H:ΣΣ,,I,,,SSexptr,,00p,,2n,,,,检验 ΣΣΣ,,,?H:ΣΣΣ,,,?12k012k kk/2/2nn/2i/2pnnpi统计量 ,,nnSS,,kii,,11ii 3.2 试述多元统计中霍特林分布和威尔克斯分布分别与一元统计中t分布和F分布的关 系。 答:(1)霍特林分布是t分布对于多元变量的推广。 2nX(),,,221,SX而若设X~(,)NμΣ,且与S~(,)WnΣtnXSX,,,,()()(),,pp2S 2相互独立,,则称统计量的分布为非中心霍特林T分布。 n,p 21,,SXTnX0~(,)NΣ,XSXS~(,)WnΣ若,且与相互独立,令,则 pp np,,12 。 TFpnp~(,1),,np FF(2)威尔克斯分布在实际应用中经常把统计量化为统计量,利用统计量来解 决多元统计分析中有关检验问题。 ,F 与统计量的关系 p nn F统计量及分别 12 nppn,,,,11(,,1)11 ,,,~(,1)Fpnp任意 任意 1 1ppn,(,,1)1 1(,,2),,pnnp,11 ,,~(2,2())Fpnp任意 任意 2 1p,(,,2)pn1 nnn1(1,,),,112 ,~(,)Fnn任意 任意 1 21nnn,(1,,)212 1(2,,),,nnn,1121 ,,~(2,2(1))Fnn任意 任意 2 21n,(2,,)nn212 3.3 试述威尔克斯统计量在多元方差分析中的重要意义。 答:威尔克斯统计量在多元方差分析中是用于检验均值的统计量。 Hij:至少存在使,,μμH:μμμ,,,?1ij012k EE用似然比原则构成的检验统计量为 给定检验水,,,,,,~(,,1)pnkkTAE,平,查Wilks分布表,确定临界值,然后作出统计判断。 , 第四章 4.1 简述欧几里得距离与马氏距离的区别和联系。 答: 设p维欧几里得空间中的两点X=和Y=。则欧几里得距离为 。欧几里得距离的局限有?在多元数据分析中,数量级的影响。?会受到实际问题中量纲的影响。 设X,Y是来自均值向量为,协方差为的总体G中的p维样本。则马氏距离为D(X,Y)=。当即单位阵时,D(X,Y)==即欧几里得距离。 因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。 4.2 试述判别分析的实质。 答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,„,Rk是p维空间R p的k个子集,如果它们互不相交,且它们的和集为,则称为的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间构造一个“划分”,这个“划分”就构成了一个判别规则。 4.3 简述距离判别法的基本思想和方法。 答:距离判别问题分为?两个总体的距离判别问题和?多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。 ?两个总体的距离判别问题 设有协方差矩阵?相等的两个总体G和G,其均值分别是,和, ,对于一个新的样品X,121222要判断它来自哪个总体。计算新样品X到两个总体的马氏距离D(X,G)和D(X,G),12则 22 X ,D(X,G)D(X,G) 12 22X ,D(X,G)> D(X,G, 12 具体分析, 22DGDG(,)(,)XX, 12 ,,11,,,,,,,,()()()()XμΣXμXμΣXμ1122 ,,,,,,111111,,,,,,,,,,,,XΣXX2(2)ΣμμΣμXΣXXΣμμΣμ111222 ,,,111,,,2(),,,,XΣμμμΣμμΣμ211122,,11,,,,,,,2()()()XΣμμμμΣμμ211212 ,μμ,,,,112 ,,,,2()XΣμμ12,,2,, ,,,,,,,,2()2()XμααXμ ,记 则判别规则为 W()()X,,αXμ X ,W(X) X ,W(X)<0 ?多个总体的判别问题。 k设有个总体,其均值和协方差矩阵分别是和,G,G,?,Gμ,μ,?,μΣ,Σ,?,Σ12k12k12k 且。计算样本到每个总体的马氏距离,到哪个总体的距离最小就属Σ,Σ,?,Σ,Σ12k 于哪个总体。 21,,具体分析, DG(,)()()XX,,,μΣXμ,,, ,,,111,,,,,,XΣX2μΣXμΣμ,,, ,1,,,,,XΣXIX2()C,, 1,1,1,C,,μΣμ取,,。 I,Σμ,,1,2,?,k,,,,,2 可以取线性判别函数为 ,WC()XIX,,, ,,1,2,?,k,,, ,WC()max()XIX,,相应的判别规则为X,G 若 i,,i1,,k, 4.4 简述贝叶斯判别法的基本思想和方法。 G,G,?,Gf(x),f(x),?,f(x)基本思想:设k个总体,其各自的分布密度函数,假设k12k12k k q,q,?,qq,0G个总体各自出现的概率分别为,,。设将本来属于总体的样品q,1ii12k,ii,1 G错判到总体时造成的损失为,。 C(j|i)i,j,1,2,?,kj kpG,G,?,GR,(R,R,?,R)设个总体相应的维样本空间为 。 12k12k RGG在规则下,将属于的样品错判为的概率为 ji P(j|i,R),f(x)dxi,j,1,2,?,ki,j i,Rj 则这种判别规则下样品错判后所造成的平均损失为 k r(i|R),[C(j|i)P(j|i,R)]i,1,2,?,k ,,1j R则用规则来进行判别所造成的总平均损失为 k g(R),qr(i,R),i,1ikk ,qC(j|i)P(j|i,R),,i,,11ij 贝叶斯判别法则,就是要选择一种划分,使总平均损失达到极小。 R,R,?,Rg(R)12k kk 基本方法: g(R),qC(j|i)P(j|i,R),,i,,11ij kk ,qC(j|i)f(x)dx,,ii,Rj,,11ij kk ,(qC(j|i)f(x))dx,,ii,Rj,,11ji kk 令,则 g(R),h(x)dxqCjifh(|)()()xx,,,jiij,Rj,1,1ji k*****若有另一划分, g(R),h(x)dxR,(R,R,?,R),j*12k,Rj,1j 则在两种划分下的总平均损失之差为 kk* g(R),g(R),[h(x),h(x)]dx,,ij*,,RRij,,11ij j因为在上h(x),h(x)对一切成立,故上式小于或等于零,是贝叶斯判别的解。 Riji Rhh,,{|()min()}xxxiijR,(R,R,?,R)i,1,2,?,k1,,jk12k从而得到的划分为 4.5 简述费希尔判别法的基本思想和方法。 pk答:基本思想:从个总体中抽取具有个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 ,UuXuXuX()XuX,,,,,? 1122pp ,u(u,u,?,u),系数可使得总体之间区别最大,而使每个总体内部的离差最小。将新样12p pU()X品的个指标值代入线性判别函数式中求出值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。 4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。 答:? 费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要求有各类母体的两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。 ? 当k=2时,若则费希尔判别与距离判别等价。当判别变量服从正态分布时,二者与贝叶斯判别也等价。 ? 当时,费希尔判别用作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别不同。 ? 距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是 X , W(X) X ,W(X) 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分,所 以该系数使用起来比标准化的系数要方便一些。具体见表4.3 。 表4.3 未标准化的典型判别函数系数 由此表可知, Fisher判别函数为: Y,,10.794,0.32X1,6.687X2,0.173X3,0.357X4,0.024X5,0.710X6,0.792X7,2.383X8 Y用计算出各观测值的具体坐标位置后,再比较它们与各类重心的距离,就可以得知 分类,如若与group0的重心距离较近则属于group0,反之亦然。各类重心在空间中的 坐标位置如表4.4所示。 表4.4 各类重心处的费希尔判别函数值 用bayes判别法建立判别函数与判别规则,由于此题中假设各类出现的先验概率相等且误判造成的损失也相等,所以距离判别法与bayes判别完全一致。 如表4.5所示,group栏中的每一列表示样品判入相应列的Bayes判别函数系数。由此可得,各类的Bayes判别函数如下: G0,,118.693,0.340X1,94.070X2,1.033X3,4.943X4,2.969X5,13.723X6,10.994X7,37.504X8 G1,,171.296,0.184X1,126.660X2,1.874X3,6.681X4,3.086X5,17.182X6,7.133X7,49.116X8 表4.5 Bayes判别函数系数 将各样品的自变量值代入上述两个Bayes判别函数,得到两个函数值。比较这两个函数值,哪个函数值比较大就可以判断该样品该判入哪一类。 2) 在判别结果的Casewise Stastics表中容易查到该客户属于group0,信用好。 4.10 从胃癌患者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行四项生化指标的化验:血清铜蛋白X、蓝色反应X、尿吲哚乙酸X和中性硫化物X,数据见,,,,,,,,1234下表。试用距离判别法建立判别函数,并根据此判别函数对原样本进行回判。 类别 病人序号 XXXX1324 1 228 134 20 11 胃2 245 134 10 40 癌3 200 167 12 27 患4 170 150 7 8 者 5 100 167 20 14 6 225 125 7 14 胃7 130 100 6 12 萎炎8 150 117 7 6 缩患性 9 120 133 10 26 者 10 160 100 5 10 11 185 115 5 19 非12 170 125 6 4 胃 炎13 165 142 5 3 患14 135 108 2 12 者 15 100 117 7 2 解:令胃癌患者、萎缩性胃炎患者和非胃炎患者分别为group1、group2、group3,由于此题中假设各类出现的先验概率相等且误判造成的损失也相等,所以距离判别法与bayes判别完全一致。用spss的解题步骤如下: 1.在SPSS窗口中选择Analyze?Classify?Discriminate,调出判别分析主界面,将左边的变量 列表中的“group”变量选入分组变量中,将X、X、XX变量选入自变量中,并选择Enter 、1234 independents together单选按钮,即使用所有自变量进行判别分析。 2.点击Define Range按钮,定义分组变量的取值范围。本例中分类变量的范围为1到3,所以在最小值和最大值中分别输入1和3。单击Continue按钮,返回主界面。 3.单击Statistics…按钮,指定输出的描述统计量和判别函数系数。选中Function Coefficients 栏中的Fisher’s:给出Bayes判别函数的系数。 4.单击Classify…按钮,弹出classification子对话框,选中Display选项栏中的Summary table复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。 5.返回判别分析主界面,单击OK按钮,运行判别分析过程。 根据判别分析的结果建立Bayes判别函数: Bayes判别函数的系数见表4.6。表中每一列表示样本判入相应类的Bayes判别函数系数。由此可建立判别函数如下: Y1,,79.212,0.164X1,0.753X2,0.778X3,0.073X4Group1: Y2,,46.721,0.130X1,0.595X2,0.317X3,0.012X4Group2: Y3,,49.598,0.130X1,0.637X2,0.100X3,0.059X4Group3: 将各样品的自变量值代入上述三个Bayes判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。 表4.6 Bayes判别函数系数 根据此判别函数对样本进行回判,结果如表4.7。从中可以看出在5个胃癌患者中,有4个被正确地判定,有1个被错误地判定为非胃炎患者,正确率为80%。在5个萎缩性胃炎患者中,有4个被正确判定,有1个被错误地判定为非胃炎患者,正确率为80%。在5个非胃炎患者中,有4个被正确判定,有1个被错误地判为萎缩性胃炎患者。整体的正确率为80.0%。 表4.7 错判矩阵 第五章 5.1 判别分析和聚类分析有何区别, 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。 5.2 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么,简要 说明 关于失联党员情况说明岗位说明总经理岗位说明书会计岗位说明书行政主管岗位说明书 为什么这样构造, 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n个样本看作p维空间的n个点。点之间的距离即可代表样品间的相似度。常用的距离为 pq1/qdqXX()(),, (一)闵可夫斯基距离:,ijikjk,1k q取不同值,分为 q,1(1)绝对距离() p dXX(1),, ,ijikjk,1k q,2(2)欧氏距离() p21/2dXX(2)(),, ,ijikjk,k1 q,,(3)切比雪夫距离() dXX()max,,, ijikjk1,,kp pXX,1ikjk (二)马氏距离 ()dL,,ijpXX,,1kikjk 21,(三)兰氏距离 ,dM()()(),,,XXΣXX ijijij 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作p维空间的向量,一般用 p(一)夹角余弦 XX,ikjk,1k cos,,ijpp 22()()XX,,ikjk ,,11kk (二)相关系数 p ()()XXXX,,,ikijkj,1k r,ijpp 22()()XXXX,,,,ikijkj ,,11kk 5.4 在进行系统聚类时,不同类间距离计算方法有何区别,选择距离公式应遵循哪些原 则, 答: 设d表示样品X与X之间距离,用D表示类G与G之间的距离。 ijijijij (1). 最短距离法 D,mind ijij,,,XGXGiijj Dd,min,min{,}DDkrij kpkq,,,XGXGikjr (2)最长距离法 Dd,maxpqij ,,,XGXGipjq Dd,max,max{,}DD krijkpkq,,,XGXGikjr (3)中间距离法 112222 D,D,D,D,krkpkqpq 22 其中 (4)重心法 21,DXXXX,,,()() X,(nX,nX)pqpqpqrppqqnr nnnnpqpq2222DDDD,,, krkpkqpq2nnnrrr (5)类平均法 nn11pq222222Dd, Dd,,,DD,,,,pqijkrijkpkqnnnnnn,,,,XGXGXGXGkrpqrripjjikjr (6)可变类平均法 nnpq2222 ,,,,(1)(),,DDDDkrkpkqpqnn rr 其中,是可变的且, <1 (7)可变法 1,,2222DDDD,,,(), 其中,是可变的且, <1 krkpkqpq2 (8)离差平方和法 nt ,SXXXX()(),,, ,tittitt,1t nnnn,,nkpkq2222kDDDD,,, krkpkqpqnnnnnn,,,rkrkrk 通常选择距离公式应注意遵循以下的基本原则: (1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。 (2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。 (3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。 5.5试述K均值法与系统聚类法的异同。 答:相同:K—均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。 不同:系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。 具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K—均值法确定类数的参考。 5.6 试述K均值法与系统聚类有何区别,试述有序聚类法的基本思想。 答:K均值法的基本思想是将每一个样品分配给最近中心(均值)的类中。系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。具体类数的确 定,有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。 有序聚类就是解决样品的次序不能变动时的聚类分析问题。如果用表示X,X,?,X(1)(2)(n)个有序的样品,则每一类必须是这样的形式,即,其中且X,X,?,Xn1,i,n,(i)(i,1)(j) ,简记为。在同一类中的样品是次序相邻的。一般的步骤是(1)j,nG,{i,i,1,?,j}i 计算直径{D(i,j)}。(2)计算最小分类损失函数{L[p(l,k)]}。(3)确定分类个数k。(4)最优分类。 5.7 检测某类产品的重量, 抽了六个样品, 每个样品只测了一个指标,分别为1,2,3,6,9,11.试用最短距离法,重心法进行聚类分析。 (1)用最短距离法进行聚类分析。 采用绝对值距离,计算样品间距离阵 0 1 0 2 1 0 5 4 3 0 8 7 6 3 0 10 9 8 5 2 0 由上表易知 中最小元素是 于是将,,聚为一类,记为 计算距离阵 0 3 0 6 3 0 8 5 2 0 中最小元素是=2 于是将,聚为一类,记为 计算样本距离阵 0 3 0 6 3 0 中最小元素是 于是将,聚为一类,记为 因此, (2)用重心法进行聚类分析 计算样品间平方距离阵 0 1 0 4 1 0 25 16 9 0 64 49 36 9 0 100 81 64 25 4 0 易知 中最小元素是 于是将,,聚为一类,记为 计算距离阵 0 16 0 49 9 0 81 25 4 0 注:计算方法,其他以此类推。 中最小元素是=4 于是将,聚为一类,记为 计算样本距离阵 0 16 0 64 16 0 中最小元素是 于是将,聚为一类,记为 因此, 5.8 下表是15个上市公司2001年的一些主要财务指标,使用系统聚类法和K,均值法分别对这些公司进行聚类,并对结果进行比较分析。 公净资产每股净总资产资产负流动负每股净净利润总资产司 收益率 利润 周转率 债率 债比率 资产 增长率 增长率 编号 1 11.09 0.21 0.05 96.98 70.53 1.86 -44.04 81.99 2 11.96 0.59 0.74 51.78 90.73 4.95 7.02 16.11 3 0 0.03 0.03 181.99 100 -2.98 103.33 21.18 4 11.58 0.13 0.17 46.07 92.18 1.14 6.55 -56.32 5 -6.19 -0.09 0.03 43.3 82.24 1.52 -1713.5 -3.36 6 10 0.47 0.48 68.4 86 4.7 -11.56 0.85 7 10.49 0.11 0.35 82.98 99.87 1.02 100.23 30.32 8 11.12 -1.69 0.12 132.14 100 -0.66 -4454.39 -62.75 9 3.41 0.04 0.2 67.86 98.51 1.25 -11.25 -11.43 10 1.16 0.01 0.54 43.7 100 1.03 -87.18 -7.41 11 30.22 0.16 0.4 87.36 94.88 0.53 729.41 -9.97 12 8.19 0.22 0.38 30.31 100 2.73 -12.31 -2.77 13 95.79 -5.2 0.5 252.34 99.34 -5.42 -9816.52 -46.82 14 16.55 0.35 0.93 72.31 84.05 2.14 115.95 123.41 15 -24.18 -1.16 0.79 56.26 97.8 4.81 -533.89 -27.74 解:令净资产收益率为X1,每股净利润X2,总资产周转率为X3,资产负债率为X4,流动负 债比率为X5,每股净资产为X6,净利润增长率为X7,总资产增长率为X8,用spss对公司 聚类分析的步骤如下: a) 系统聚类法: 1. 在SPSS窗口中选择Analyze?Classify?Hierachical Cluster,调出系统聚类分析主界 X1-X8面,并将变量移入Variables框中。在Cluster栏中选择Cases单选按钮, 即对样品进行聚类(若选择Variables,则对变量进行聚类)。在Display栏中选择 Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和 统计图。 图5.1 系统分析法主界面 2. 点击Statistics按钮,设置在结果输出窗口中给出的聚类分析统计量。我们选择 Agglomeration schedule与Cluster Membership中的Range of solution 2-4,如图5.2 所示,点击Continue按钮,返回主界面。 (其中,Agglomeration schedule表示在结果中给出聚类过程表,显示系统聚类的 详细步骤;Proximity matrix 表示输出各个体之间的距离矩阵;Cluster Membership 表示在结果中输出一个表,表中显示每个个体被分配到的类别,Range of solution 2-4即将所有个体分为2至4类。) 3. 点击Plots按钮,设置结果输出窗口中给出的聚类分析统计图。选中Dendrogram 复选框和Icicle栏中的None单选按钮,如图5.3,即只给出聚类树形图,而不给出 冰柱图。单击Continue按钮,返回主界面。 图5.2 Statistics子对话框 图5.3 Plots子对话框 4. 点击Method按钮,设置系统聚类的方法选项。Cluster Method下拉列表用于指定 聚类的方法,这里选择Between-group inkage(组间平均数连接距离);Measure栏 用于选择对距离和相似性的测度方法,选择Squared Euclidean distance(欧氏距离); 单击Continue按钮,返回主界面。 图5.4 Method子对话框 图5.5 Save子对话框 5. 点击Save按钮,指定保存在数据文件中的用于表明聚类结果的新变量。None表示 不保存任何新变量;Single solution表示生成一个分类变量,在其后的矩形框中输 入要分成的类数;Range of solutions表示生成多个分类变量。这里我们选择Range of solutions,并在后面的两个矩形框中分别输入2和4,即生成三个新的分类变量, 分别表明将样品分为2类、3类和4类时的聚类结果,如图5.5。点击Continue,返 回主界面。 6. 点击OK按钮,运行系统聚类过程。 聚类结果分析: 下面的群集成员表给出了把公司分为2类,3类,4类时各个样本所属类别的情况,另外,从右边的树形图也可以直观地看到,若将15个公司分为2类,则13独自为一类,其余的为一类;若分为3类,则公司8分离出来,自成一类。以此类推。 表5.1 各样品所属类别表 图5.6 聚类树形图 b) K均值法的步骤如下: 1. 在SPSS窗口中选择Analyze?Classify?K-Means Cluster,调出K均值聚类分析主界 面,并将变量X1-X8移入Variables框中。在Method框中选择Iterate classify,即 使用K-means算法不断计算新的类中心,并替换旧的类中心(若选择Classify only, 则根据初始类中心进行聚类,在聚类过程中不改变类中心)。在Number of Cluster 后面的矩形框中输入想要把样品聚成的类数,这里我们输入3,即将15个公司分 为3类。 (Centers按钮,则用于设置迭代的初始类中心。如果不手工设置,则系统会自动 设置初始类中心,这里我们不作设置。) 图5.7 K均值聚类分析主界面 2. 点击Iterate按钮,对迭代参数进行设置。Maximum Iterations参数框用于设定 K-means算法迭代的最大次数,输入10,Convergence Criterion参数框用于设定算 法的收敛判据,输入0,只要在迭代的过程中先满足了其中的参数,则迭代过程就 停止。单击Continue,返回主界面。 图5.8 Iterate子对话框 3. 点击Save按钮,设置保存在数据文件中的表明聚类结果的新变量。我们将两个复 选框都选中,其中Cluster membership选项用于建立一个代表聚类结果的变量,默 认变量名为qcl_1;Distance from cluster center选项建立一个新变量,代表各观测 量与其所属类中心的欧氏距离。单击Continue按钮返回。 图5.9 Save子对话框 4. 点击Options按钮,指定要计算的统计量。选中Initial cluster centers和Cluster information for each case复选框。这样,在输出窗口中将给出聚类的初始类中心和 每个公司的分类信息,包括分配到哪一类和该公司距所属类中心的距离。单击 Continue返回。 图5.10 Options子对话框 5. 点击OK按钮,运行K均值聚类分析程序。 聚类结果分析: 以下三表给出了各公司所属的类及其与所属类中心的距离,聚类形成的类的中心的各变量值以及各类的公司数。由以上 表格 关于规范使用各类表格的通知入职表格免费下载关于主播时间做一个表格详细英语字母大小写表格下载简历表格模板下载 可得公司13与公司8各自成一类,其余的公司为一类。 通过比较可知,两种聚类方法得到的聚类结果完全一致。 5.9下表是某年我国16个地区农民支出情况的抽样调查数据,每个地区调查了反映每人平均生活消费支出情况的六个经济指标。试通过统计分析软件用不同的方法进行系统聚类分析,并比较何种方法与人们观察到的实际情况较接近。 交通和 娱乐教 地区 食品 衣着 燃料 住房 通讯 育文化 北京 190.33 43.77 9.73 60.54 49.01 9.04 天津 135.2 36.4 10.47 44.16 36.49 3.94 河北 95.21 22.83 9.3 22.44 22.81 2.8 山西 104.78 25.11 6.4 9.89 18.17 3.25 内蒙 128.41 27.63 8.94 12.58 23.99 2.27 辽宁 145.68 32.83 17.79 27.29 39.09 3.47 吉林 159.37 33.38 18.37 11.81 25.29 5.22 黑龙江 116.22 29.57 13.24 13.76 21.75 6.04 上海 221.11 38.64 12.53 115.65 50.82 5.89 江苏 144.98 29.12 11.67 42.6 27.3 5.74 浙江 169.92 32.75 12.72 47.12 34.35 5 安徽 135.11 23.09 15.62 23.54 18.18 6.39 福建 144.92 21.26 16.96 19.52 21.75 6.73 江西 140.54 21.5 17.64 19.19 15.97 4.94 山东 115.84 30.26 12.2 33.6 33.77 3.85 河南 101.18 23.26 8.46 20.2 20.5 4.3 解:令食品支出为X1,衣着支出为X2,燃料支出为X3,住房支出为X4,交通和通讯支出为X5,娱乐教育文化支出为X6,用spss对16各地区聚类分析的步骤如5.8题,不同的方法在第4个步骤的Method子对话框中选择不同的Cluster method。 1. Between-group inkage(组间平均数连接距离) 上表给出了把全国16个地区分为2类、3类和4类时,各地区所属的类别,另外从右边的树形图也可以直观地观察到,若用组间平均数连接距离将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。 2. Within-group linkage(组内平均连接距离) 若用组内平均数连接距离将这些地区分为3类,则9(上海)独自为一类,1(北京)独自为一类,剩余地区为一类。 3. Nearest neighbor(最短距离法) 若用最短距离法将这些地区分为3类,则9(上海)独自为一类,1(北京)独自为一类,剩余地区为一类。 4. Furthest neighbor(最远距离法) 若用最远距离法将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙 江)为一类,剩余地区为一类。 5. Centroid cluster(重心法) 若用重心法将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江) 为一类,剩余地区为一类。 6. Median cluster(中位数距离) 若用中位数距离法将这些地区分为3类,则9(上海)独自为一类,1(北京)和11(浙江)为一类,剩余地区为一类。 7. Ward method(离差平方和) 若用离差平方和法将这些地区分为3类,则9(上海),1(北京)和11(浙江)为一类,2(天津)、6(辽宁)、7(吉林)、10(江苏)、12(安徽)、13(福建)和14(江西)为一类,剩余地区为一类。 5.10 根据上题数据通过SPSS统计分析软件进行快速聚类运算,并与系统聚类分析结果进行比较。 解:快速聚类运算即K均值法聚类,具体步骤同5.8,聚类结果如下: 聚类的结果为9(上海)独自为一类,1(北京)、2(天津)、6(辽宁)、7(吉林)、10(江苏)、11(浙江)、13(福建)和14(江西)为一类,剩余地区为一类。 5.11下表是2003年我国省会城市和计划单列市的主要经济指标:人均GDPx(元)、1人均工业产值x(元)、客运总量x(万人)、货运总量x(万吨)、地方财政预算内收入x3245(亿元)、固定资产投资总额x(亿元)、在岗职工占总人口的比例x(,)、在岗职工人均67 工资额xx(元)、城乡居民年底储蓄余额(亿元)。试通过统计分析软件进行系统聚类分89 析,并比较何种方法与人们观察到的实际情况较接近。 xxxxxxxxx城市 138245679 北京 31886 33168 30520 30671 593 2000 37.8 25312 6441 天津 26433 43732 3507 34679 205 934 18.8 18648 1825 石家15134 13159 11843 10008 49 416 9.5 12306 1044 庄 太原 15752 15831 2975 15248 33 197 22.8 12679 660 呼和18991 11257 3508 4155 21 182 13.5 14116 255 浩特 沈阳 23268 15446 6612 14636 81 557 14.8 14961 1423 大连 29145 27615 11001 21081 111 407 14.7 17560 1310 长春 18630 21045 6999 10892 46 294 12.5 13870 831 哈尔14825 7561 6458 9518 76 423 17.7 12451 1154 滨 上海 46586 77083 7212 63861 899 2274 21.0 27305 6055 南京 27547 43853 16790 14805 136 794 15.4 22190 1134 杭州 32667 49823 21349 16815 150 717 11.8 24667 1466 宁波 32543 47904 24938 13797 139 555 10.9 23691 1060 合肥 10621 11714 6034 4641 36 245 8.3 13901 359 福州 22281 21310 9680 8250 67 376 11.8 15053 876 厦门 53590 93126 4441 3055 70 238 38.6 19024 397 南昌 14221 9205 5728 4454 31 210 11.0 13913 483 济南 23437 22634 5810 14354 76 429 13.5 16027 758 青岛 24705 35506 14666 30553 120 548 14.5 15335 908 郑州 16674 14023 10709 7847 66 373 12.7 13538 1048 武汉 21278 17083 11882 16610 80 623 17.4 13730 1286 长沙 15446 8873 10609 10631 60 434 10.0 16987 705 广州 48220 55404 29751 28859 275 1089 25.1 28805 3727 深圳 191838 347519 10989 6793 291 875 69.6 31053 2199 南宁 8176 3390 7016 5893 36 170 8.3 13171 451 海口 16442 14553 13284 3304 12 99 16.5 14819 284 重庆 7190 5076 58290 32450 162 1187 6.5 12440 1897 成都 17914 9289 72793 28798 90 788 11.9 15274 1494 贵阳 11046 10350 18511 5318 40 231 15.8 12181 345 昆明 16215 11601 5126 12338 60 342 14.6 14255 709 西安 13140 8913 11413 9392 65 446 15.9 13505 1211 兰州 14459 17136 2209 5581 21 203 18.0 13489 468 西宁 7066 5605 2788 2037 8 76 10.1 14629 175 银川 11787 11013 2146 2127 12 134 21.9 13497 193 乌鲁22508 17137 2188 12754 41 180 26.1 16509 420 木齐 南宁 31886 33168 30520 30671 593 2000 37.8 25312 6441 海口 26433 43732 3507 34679 205 934 18.8 18648 1825 资料来源:《中国统计年鉴2004》 解:用spss对37个地区聚类分析的步骤如5.8题,不同的方法在第4个步骤的Method子对 话框中选择不同的Cluster method。 1.Between-group inkage(组间平均数连接距离) 从上面的树形图可以直观地观察到,若用组间平均数连接距离将这些地区分为3类,则24 (深圳)独自为一类,10(上海)和16(厦门)为一类,剩余地区为一类。 2.Within-group linkage(组内平均连接距离) 若用组内平均数连接距离将这些地区分为3类,则24(上海)独自为一类,27(重庆)和28(成都)为一类,剩余地区为一类。 3. Nearest neighbor(最短距离法) 若用最短距离法将这些地区分为2类,则24(深圳)独自为一类,剩余地区为一类。 4.Furthest neighbor(最远距离法) 若用最远距离法将这些地区分为3类,则24(深圳)独自为一类,1(北京)、2(天津)、7(大连)、10(上海)、11(南京)、12(杭州)、13(宁波)、16(厦门)、19(青岛)、23(广州)、36(海宁)和37(海口)为一类,剩余地区为一类。 5.Centroid cluster(重心法) 若用重心法将这些地区分为3类,则24(深圳)独自为一类,10(上海)和16(厦门)为一类,剩余地区为一类。 6.Median cluster(中位数距离) 若用中位数距离法将这些地区分为3类,则24(深圳)独自为一类,1(北京)、2(天津)、7(大连)、10(上海)、11(南京)、12(杭州)、13(宁波)、16(厦门)、19(青岛)、23(广州)、36(海宁)和37(海口)为一类,剩余地区为一类。 7.Ward method(离差平方和) 若用离差平方和法将这些地区分为3类,则24(深圳)独自为一类,1(北京)、2(天津)、7(大连)、10(上海)、11(南京)、12(杭州)、13(宁波)、16(厦门)、19(青岛)、23(广州)、36(海宁)和37(海口)为一类,剩余地区为一类。 经过比较,各种方法得到的结果又相似点也有不同点。笔者认为,其中最远距离法、中位数距离、离差平方和这三种方法所得到的结果与现实生活中人们的感觉比较相近。 5.12 下表是我国1991-2003年的固定资产投资价格指数,试对这段时期进行分段,并据此对我国固定资产投资的价格变化情况进行分析。 年份 1991 1992 1994 1995 1996 1997 1993 指数 109.5 115.3 126.6 110.4 105.9 104.0 101.7 年份 1998 1999 2000 2001 2002 2003 指数 99.8 99.6 101.1 100.4 100.2 100.2 第六章 6.1 试述主成分分析的基本思想。 答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。当第一个组合不能提取更多信息时,再考虑第二个线性组合。继续这个过程,直到提取的信息与原指标差不多时为止。这就是主成分分析的基本思想。 6.2 主成分分析的作用体现在何处, 答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”的同时又保留了原数据的大部分信息。 6.3 简述主成分分析中累积贡献率的具体含义。 ppXXX,,,?答:主成分分析把个原始变量的总方差分解成了个相互独立的变量tr()Σ12pp,,kk,1YYY,,,?的方差之和。主成分分析的目的是减少变量的个数,所以一般不会使用所有12p p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们 pY,YT,Xkk11称 为第个主成分的贡献率。第一主成分的贡献率最大,这表明,,,,,kkkk,1 XXX,,,?YYY,,,?综合原始变量的能力最强,而的综合能力依次递减。若只取12p23ppmYY,,?个主成分,则称 为主成分的累计贡献率,累计贡献率mp(),,,,,1m,,mkkkk,,11 mXXX,,,?YY,,?表明综合的能力。通常取,使得累计贡献率达到一个较高的百分12p1m 数(如85,以上)。 6.4 在主成分分析中“原变量方差之和等于新的变量的方差之和”是否正确, 说明理由。 答:这个说法是正确的。 即原变量方差之和等于新的变量的方差之和 6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。 答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。从协方差矩阵出发的,其结果受变量单位的影响。主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。实际表明,这种差异有时很大。我们认为,如果各指标之间的数量级相差悬殊,特别是各指标有不同的物理量纲的话,较为合理的做法是使用R代替?。对于研究经济问题所涉及的变量单位大都不统一,采用R代替?后,可以看作是用标准化的数据做分析,这样使得主成分有现实经济意义,不仅便于剖析实际问题,又可以避免突出数值大的变量。 6.6 已知X=()’的协差阵为 试进行主成分分析。 解:=0 计算得 当时, 同理,计算得 时, 易知相互正交 单位化向量得, , 综上所述, 第一主成分为 第二主成分为 第三主成分为 6.7 设X=()’的协方差阵(p为 , 0 评价 LEC评价法下载LEC评价法下载评价量规免费下载学院评价表文档下载学院评价表文档下载 六个工业行业的经济效益指标。 单位:(亿元) 资产 固定资产净产品销 利润 行业名称 总计 值平均余额 售收入 总额 煤炭开采和选业 6917.2 3032.7 683.3 61.6 石油和天然气开采业 5675.9 3926.2 717.5 33877 黑色金属矿采选业 768.1 221.2 96.5 13.8 有色金属矿采选业 622.4 248 116.4 21.6 非金属矿采选业 699.9 291.5 84.9 6.2 其它采矿业 1.6 0.5 0.3 0 解:令资产总计为X1,固定资产净值平均余额为X2,产品销售收入为X3,利润总额为X4,用SPSS对这六个行业进行主成分分析的方法如下: 1. 在SPSS窗口中选择Analyze?Data Reduction?Factor菜单项,调出因子分析主界 面,并将变量XX,移入Variables框中,其他均保持系统默认选项,单击OK按15 钮,执行因子分析过程(关于因子分子在SPSS中实现的详细过程,参见7.7)。得 到如表6.1所示的特征根和方差贡献率表和表6.2所示的因子载荷阵。 第一个因子就可以解释86.5% 表6.1 特征根和方差贡献率表 表6.2 因子载荷阵 2. 将表6.2中因子载荷阵中的数据输入SPSS数据编辑窗口,命名为a1。点击菜单项 中的Transform?Compute,调出Compute variable对话框,在对话框中输入等式: z1=a1 / SQRT(3.46),计算第一个特征向量。点击OK按钮,即可在数据编辑窗口中 得到以z1为变量名的第一特征向量。 表6.3 特征向量矩阵 z1 x1 0.509 x2 0.537 x3 0.530 x4 0.413 根据表6.3得主成分的表达式: Y1,0.509X1,0.537X2,0.530X3,0.413X4 3. 再次使用Compute命令,调出Compute variable对话框,在对话框中输入等式: y1,0.509*x1,0.537*x2,0.53*x3,0.413*x4 根据六个工业行业计算所的y1的大小可得石油和天然气开采业的经济效益最好,煤炭开采和选业其次,接着依次是黑色金属、非金属、有色金属和其他采矿业。 6.9 下表是我国2003年各地区农村居民家庭平均每人主要食品消费量,试用主成分方法对各主要食品和地区进行分类。 蛋类 猪牛 水产 地区 粮食 蔬菜 食油 家禽 及其 食糠 酒 羊肉 品 制品 北京 134.05 92.78 9.15 14.6 2.17 10.13 4.25 2.92 14.42 天津 150.2 69.99 10 11.07 0.84 10.8 8.35 0.72 10.14 河北 216.72 55.97 6.59 7.1 0.54 6.36 2.25 0.65 7.29 山西 218.91 80.87 5.72 5.36 0.24 6.15 0.47 1.15 2.59 内蒙 207.3 70.77 2.79 21.18 1.41 3.82 1.45 1.34 10.77 辽宁 194.39 178.59 5.9 16.45 2.51 9.59 4.49 0.73 10.8 吉林 255.99 115.2 6.27 11.42 3.23 8.64 3.6 0.75 13.64 黑龙江 195.08 111.7 7.62 7.85 2.61 6.26 3.35 0.9 15.09 上海 189.44 76.6 8.59 16.37 7.4 7.51 16.11 2.12 16.77 江苏 251.98 109.12 8.27 12.05 4.5 6.72 9.09 1.3 8.82 浙江 208.46 83.91 5.81 16.42 6.03 5.33 14.64 2.13 24.15 安徽 228.35 80.97 6.87 9.07 4.27 5.04 5.43 1.42 10.61 福建 198.27 99.92 5.19 16.51 5.14 3.55 13.3 2.35 16.84 江西 264.8 144.22 8.77 13.24 3.31 3.5 5.19 1.13 7.31 山东 229.06 118.19 6.96 8.09 2.7 11.61 4.01 1 10.81 河南 236.97 100.11 4.22 6.48 1.23 8.01 1.35 1.13 4.23 湖南 227.39 159.76 9.4 19.86 2.74 3.86 8.1 0.92 7.29 湖北 247.21 149.44 8.35 17.51 3.89 3.28 6.89 1.13 4.02 广东 233.75 130.22 6.73 22.27 10.4 2.83 13.3 2.16 3.33 广西 205.65 108.94 4.92 14.44 7.33 1.12 3.57 1.18 6.14 海南 236.31 86.61 5.7 15.4 9.77 1.31 14.75 1.24 3.88 解:令粮食为X1,蔬菜为x2,食油为x3,猪牛羊肉为x4,家禽为x5,蛋类及其制品为x6,水产品为x7,食糠为x8,酒为x9,用SPSS进行主成分分析的具体方法参见6.8,分析结果如下: 表6.4 特征根和方差贡献率表 表6.5 因子载荷阵 表6.6 特征向量矩阵 z1 z2 z3 x1 0.001169 -0.55035 -0.00518 x2 0.054359 -0.32014 0.616746 x3 0.005261 0.185239 0.697829 x4 0.455914 -0.07584 0.167341 x5 0.509689 -0.14229 -0.05521 x6 -0.32908 0.408063 0.269126 x7 0.500921 0.118795 0.112136 x8 0.388112 0.332893 -0.13025 x9 0.140866 0.4933 -0.01984 根据表6.6得主成分的表达式: Y1,0.001X1,0.054X2,0.005X3,0.456X4,0.51X5,0.329X6,0.501X7,0.388X8,0.141X9Y2,,0.55X1,0.32X2,0.185X3,0.076X4,0.142X5,0.408X6,0.119X7,0.333X8,0.493X9 Y3,,0.005X1,0.617X2,0.698X3,0.167X4,0.055X5,0.269X6,0.112X7,0.130X8,0.02X9 ,,,123分别计算出以上三项后,利用公式Y,Y1,Y2,Y3得到综合得分并排序,,,,,,如下表: 地区 y1 y2 y3 y 北京 14.92 -90.42 67.81 -10.16 天津 11.80 -93.48 54.76 -15.31 上海 24.39 -115.46 57.85 -16.51 福建 24.55 -129.93 68.56 -19.17 浙江 25.14 -126.00 59.51 -19.43 辽宁 19.55 -154.56 118.72 -19.47 黑龙江 13.27 -131.90 76.07 -23.38 湖南 23.53 -169.91 108.84 -24.97 广东 29.80 -167.06 88.93 -25.29 广西 19.18 -144.89 72.06 -25.99 内蒙 15.93 -130.47 48.84 -27.33 海南 24.93 -154.57 60.04 -29.19 山东 11.81 -152.64 81.06 -30.09 湖北 21.71 -179.61 100.93 -30.74 安徽 14.06 -143.12 56.46 -30.92 江苏 18.07 -164.93 76.08 -32.51 河北 7.10 -129.83 40.94 -32.73 山西 6.20 -141.44 55.18 -34.15 吉林 14.54 -166.90 78.26 -34.32 江西 18.74 -185.62 97.04 -34.94 河南 8.32 -156.36 66.62 -35.93 最后的分类可以根据最终得分Y的值来划分,由于没有给出具体的分类标准,具体分类结果根据各人的主观意愿可以有多种答案。 6.10 根据习题5.10中2003年我国省会城市和计划单列市的主要经济指标数据,利用主成分分析法对这些地区进行分类。 解:用SPSS进行主成分分析的具体方法参见6.8,分析结果如下: 表6.7 特征根和方差贡献率表 表6.8 因子载荷阵 表6.6 特征向量矩阵 z1 z2 x1 0.29 0.47 x2 0.28 0.48 x3 0.14 -0.29 x4 0.31 -0.37 x5 0.40 -0.20 x6 0.40 -0.27 x7 0.31 0.39 x8 0.39 0.12 x9 0.39 -0.24 根据表6.6得主成分的表达式: Y1,0.29X1,0.28X2,0.14X3,0.31X4,0.4X5,0.4X6,0.31X7,0.39X8,0.39X9 Y2,0.47X1,0.48X2,0.29X3,0.37X4,0.2X5,0.27X6,0.39X7,0.12X8,0.24X9 ,,12Y,Y1,Y2分别计算出以上三项后,利用公式得到综合得分并排序如下表: ,,,, 地区 y1 y2 y 深圳 170038.89 254204.05 197055.90 上海 70185.88 34213.02 58638.59 厦门 50894.53 69593.93 56897.04 广州 55849.21 32174.58 48249.65 杭州 42167.71 29244.98 38019.51 宁波 40552.85 28367.34 36641.30 北京 45747.38 11555.73 34771.86 南宁 45747.38 11555.73 34771.86 天津 39597.90 21080.52 33653.82 海口 39597.90 21080.52 33653.82 南京 36680.75 25804.65 33189.52 青岛 35237.27 14552.46 28597.44 大连 31830.56 17629.53 27272.03 济南 25149.73 16499.39 22372.97 福州 22734.16 16326.97 20677.45 乌鲁木齐 22284.54 15284.68 20037.59 沈阳 23184.99 12310.22 19694.19 武汉 23909.27 9770.56 19370.75 长春 21524.95 14179.21 19166.96 成都 33808.79 -17638.73 17294.14 太原 19445.42 9809.99 16352.45 郑州 18561.81 9822.90 15756.62 兰州 16568.97 13769.80 15670.44 海口 17666.70 11325.77 15631.26 昆明 18494.34 8579.72 15311.75 呼和浩特 16128.60 13359.10 15239.59 长沙 18845.23 6252.54 14802.98 石家庄 18229.33 7399.62 14752.99 西安 16764.15 4871.97 12946.76 南昌 14598.40 9288.20 12893.83 哈尔滨 15782.07 6297.20 12737.43 合肥 14319.85 8659.41 12502.85 银川 12865.97 10960.08 12254.18 贵阳 15339.90 4138.48 11744.24 重庆 27859.53 -22407.66 11723.76 西宁 10450.62 6144.51 9068.36 南宁 11526.86 2677.29 8686.15 最后的分类可以根据最终得分Y的值来划分,由于没有给出具体的分类标准,具体分类结果 根据各人的主观意愿可以有多种答案。 第七章 7.1 试述因子分析与主成分分析的联系与区别。 答:因子分析与主成分分析的联系是:?两种分析方法都是一种降维、简化数据的技术。?两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。 因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。 7.2 因子分析主要可应用于哪些方面, 答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,?因子分析可以用于分类。如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等?因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用。?因子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。 7.3 简述因子模型中载荷矩阵A的统计意义。 答:对于因子模型 XaFaFaFaF,,,,,,,??, ip,1,2,,?iiiijjimmi1122 aaa?,,11121m,,aaa?21222m,,(,,,)因子载荷阵为A,,AAA? 12m,,????,,aaa?,,pppm12,, FX与的协方差为: ji m Cov(,)Cov(,)XFaFF,,,,ijikkij,1km = Cov(,)Cov(,)aFFF,,,ikkjij,1k a= ij aaFXX若对作标准化处理,=,因此 一方面表示对的依赖程度;另一方面也反ijijjii FXji映了变量对公共因子的相对重要性。 m22haip,,1,2,,?变量共同度 ,iij,1j 22222XDXaDFaDFaDFD()()()()(),,,,,?,,,h, 说明变量的方差由iiiiimmi1122ii 2两部分组成:第一部分为共同度,它描述了全部公共因子对变量的总方差所作的贡献,Xhii 反映了公共因子对变量的影响程度。第二部分为特殊因子对变量的方差的贡献,通X,Xiii常称为个性方差。 p22X而公共因子对的贡献 Fgajm,,1,2,,?j,jij,1i 表示同一公共因子对各变量所提供的方差贡献之总和,它是衡量每一个公共因子相对重Fj 要性的一个尺度。 7.4 在进行因子分析时,为什么要进行因子旋转,最大方差因子旋转的基本思路是什么, 答:因子分析的目标之一就是要对所提取的抽象因子的实际含义进行合理解释。但有时直接根据特征根、特征向量求得的因子载荷阵难以看出公共因子的含义。这种因子模型反而是不利于突出主要矛盾和矛盾的主要方面的,也很难对因子的实际背景进行合理的解释。这时需要通过因子旋转的方法,使每个变量仅在一个公共因子上有较大的载荷,而在其余的公共因子上的载荷比较小。 最大方差旋转法是一种正交旋转的方法,其基本思路为: ?A p***12AA,,,Γ(),/adah其中令 dd,ijpmijiji,,jijp,1i p1*22Aj的第列元素平方的相对方差可定义为 Vdd,,(),jijjp,1i ? VVVV,,,,?12m *A最大方差旋转法就是选择正交矩阵,使得矩阵所有m个列元素平方的相对方差之和达Γ 到最大。 7.5 试分析因子分析模型与线性回归模型的区别与联系。 答:因子分析模型是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法的模型。而线性回归模型回归分析的目的是设法找出变量间的依存(数量)关系, 用函数关系式表达出来。 因子分析模型中每一个变量都可以表示成公共因子的线性函数与特殊因子之和。即 XAF,,εXaFaFaF,,,,,?,,() 该模型可用矩阵表示为: ip,,,2,1?iiiimmi1122 而回归分析模型中多元线性回归方程模型为: 其中是常数项,是偏回归系数,是残差。 因子模型满足: mp,Cov(,)0Fε,(1); (2),即公共因子与特殊因子是不相关的; 10,,,,1,,(3),即各个公共因子不相关且方差为1; DFI,,,D()Fm,,?,,01,, 2,,,01,,2,2,,(4),即各个特殊因子不相关,方差不要求相等。 DD,,()ε,,,?,,20,,,p,, ,而回归分析模型满足(1)正态性:随机误差(即残差)e服从均值为 0,方差为,的正 ,态分布;(2)等方差:对于所有的自变量x,残差e的条件方差为, ,且,为常数;(3)独立性:在给定自变量x的条件下,残差e的条件期望值为0(本假设又称零均值假设);(4)无自相关性:各随机误差项e互不相关。 两种模型的联系在于都是线性的。因子分析的过程就是一种线性变换。 7.6 设某客观现象可用X=()’来描述, 在因子分析时,从约相关阵出发计算出特征值为 由于,所以找前两个特征值所对应的公共因子即可, 又知对应的正则化特征向量分别为(0.707,-0.316,0.632)’及(0,0.899,0.4470)’,要求: (1)计算因子载荷矩阵A,并建立因子模型。 (2)计算共同度。 (3)计算第一公因子对X 的“贡献”。 解:(1)根据题意,A= = 建立因子模型为 (2) (3)因为是从约相关阵计算的特征值,所以公共因子对X的“贡献”为。 7.7 利用因子分析方法分析下列30个学生成绩的因子构成,并分析各个学生较适合学文科还是理科。 序号 数学 物理 化学 语文 历史 英语 1 65 61 72 84 81 79 2 77 77 76 64 70 55 3 67 63 49 65 67 57 4 80 69 75 74 74 63 5 74 70 80 84 81 74 6 78 84 75 62 71 64 7 66 71 67 52 65 57 8 77 71 57 72 86 71 9 83 100 79 41 67 50 10 86 94 97 51 63 55 11 74 80 88 64 73 66 12 67 84 53 58 66 56 13 81 62 69 56 66 52 14 71 64 94 52 61 52 15 78 96 81 80 89 76 16 69 56 67 75 94 80 17 77 90 80 68 66 60 18 84 67 75 60 70 63 19 62 67 83 71 85 77 20 74 65 75 72 90 73 21 91 74 97 62 71 66 22 72 87 72 79 83 76 23 82 70 83 68 77 85 24 63 70 60 91 85 82 25 74 79 95 59 74 59 26 66 61 77 62 73 64 27 90 82 98 47 71 60 28 77 90 85 68 73 76 29 91 82 84 54 62 60 30 78 84 100 51 60 60 解:令数学成绩为X,物理为X ,化学为X ,语文为X ,历史为X,英语为X,用spss123451分析学生成绩的因子构成的步骤如下: 1. 在SPSS窗口中选择Analyze?Data Reduction?Factor,调出因子分析主界面,并将六个变量移入Variables框中。 图7.1 因子分析主界面 2. 点击Descriptives按钮,展开相应对话框,见图7.2。选择Initial solution复选项。这个选项给出各因子的特征值、各因子特征值占总方差的百分比以及累计百分比。单击Continue按钮,返回主界面。 图7.2 Descriptives子对话框 3. 点击Extraction按钮,设置因子提取的选项,见图7.3。在Method下拉列表中选择因子提取的方法,SPSS提供了七种提取方法可供选择,一般选择默认选项,即“主成分法”。在Analyze栏中指定用于提取因子的分析矩阵,分别为相关矩阵和协方差矩阵。在Display栏中指定与因子提取有关的输出项,如未旋转的因子载荷阵和因子的碎石图。在Extract栏中指定因子提取的数目,有两种设置方法:一种是在Eigenvalues over后的框中设置提取的因子对应的特征值的范围,系统默认值为1,即要求提取那些特征值大于1的因子;第二种设置方法是直接在Number of factors后的矩形框中输入要求提取的公因子的数目。这里我们均选择系统默认选项,单击Continue按钮,返回主界面。 图7.3 Extraction子对话框 4.点击Rotation按钮,设置因子旋转的方法。这里选择Varimax(方差最大旋转),并选择Display栏中的Rotated solution复选框,在输出窗口中显示旋转后的因子载荷阵。单击Continue按钮,返回主界面。 图7.4 Rotation子对话框 5.点击Scores按钮,设置因子得分的选项。选中Save as variables复选框,将因子得分作为新变量保存在数据文件中。选中Display factor score coefficient matrix复选框,这样在结果输出窗口中会给出因子得分系数矩阵。单击Continue按钮返回主界面。 图7.5 Scores子对话框 6. 单击OK按钮,运行因子分析过程。 结果分析: 表7.1 旋转前因子载荷阵 表7.2 旋转后因子载荷阵 a成份矩阵 成份 1 2 x1 -.662 .503 x2 -.530 .478 x3 -.555 .605 x4 .900 .233 x5 .857 .357 ax6 .816 .498 旋转成份矩阵 提取方法 :主成分分析法。 成份 1 2 x1 -.245 .795 x2 -.152 .698 x3 -.099 .815 x4 .867 -.335 x5 .904 -.209 x6 .953 -.072 从表7.1中可以看出,每个因子在不同原始变量上的载荷没有明显的差别,为了便于对因子进行命名,需要对因子载荷阵进行旋转,得表7.2。经过旋转后的载荷系数已经明显地两极分化了。第一个公共因子在后三个指标上有较大载荷,说明这三个指标有较强的相关性,可以归为一类,属于文科学习能力的指标;第二个公共因子在前三个指标上有较大载荷,同样可以归为一类,这三个指标同属于理科学习能力的指标。根据表7.3易得: F1,0.064X1,0.085X2,0.137X3,0.332X4,0.378X5,0.432X6 F2,0.439X1,0.400X2,0.484X3,0.014X4,0.073X5,0.169X6 表7.3 因子得分系数矩阵 将每个学生的六门成绩分别代入F1、F2,比较两者的大小,F1大的适合学文,F2大的适合学理。 计算结果为学号是1、16、24的学生适合学文,其余均适合学理。 7.8 某汽车组织欲根据一系列指标来预测汽车的销售情况,为了避免有些指标间的相关关系影响预测结果,需首先进行因子分析来简化指标系统。下表是抽查欧洲某汽车市场7个品牌不同型号的汽车的各种指标数据,试用因子分析法找出其简化的指标系统。 燃料燃料品牌 价格 发动机 功率 轴距 宽 长 轴距 容量 效率 A 21500 1.8 140 101.2 67.3 172.4 2.639 13.2 28 A 28400 3.2 225 108.1 70.3 192.9 3.517 17.2 25 A 42000 3.5 210 114.6 71.4 196.6 3.850 18.0 22 B 23990 1.8 150 102.6 68.2 178.0 2.998 16.4 27 B 33950 2.8 200 108.7 76.1 192.0 3.561 18.5 22 B 62000 4.2 310 113.0 74.0 198.2 3.902 23.7 21 C 26990 2.5 170 107.3 68.4 176.0 3.179 16.6 26 C 33400 2.8 193 107.3 68.5 176.0 3.197 16.6 24 C 38900 2.8 193 111.4 70.9 188.0 3.472 18.5 25 D 21975 3.1 175 109.0 72.7 194.6 3.368 17.5 25 D 25300 3.8 240 109.0 72.7 196.2 3.543 17.5 23 D 31965 3.8 205 113.8 74.7 206.8 3.778 18.5 24 D 27885 3.8 205 112.2 73.5 200.0 3.591 17.5 25 E 39895 4.6 275 115.3 74.5 207.2 3.978 18.5 22 E 39665 4.6 275 108.0 75.5 200.6 3.843 19.0 22 E 31010 3.0 200 107.4 70.3 194.8 3.770 18.0 22 E 46225 5.7 255 117.5 77.0 201.2 5.572 30.0 15 F 13260 2.2 115 104.1 67.9 180.9 2.676 14.3 27 F 16535 3.1 170 107.0 69.4 190.4 3.051 15.0 25 F 18890 3.1 175 107.5 72.5 200.9 3.330 16.6 25 F 19390 3.4 180 110.5 72.7 197.9 3.340 17.0 27 F 24340 3.8 200 101.1 74.1 193.2 3.500 16.8 25 F 45705 5.7 345 104.5 73.6 179.7 3.210 19.1 22 F 13960 1.8 120 97.1 66.7 174.3 2.398 13.2 33 F 9235 1.0 55 93.1 62.6 149.4 1.895 10.3 45 F 18890 3.4 180 110.5 73.0 200.0 3.389 17.0 27 G 19840 2.5 163 103.7 69.7 190.9 2.967 15.9 24 G 24495 2.5 168 106.0 69.2 193.0 3.332 16.0 24 G 22245 2.7 200 113.0 74.4 209.1 3.452 17.0 26 G 16480 2.0 132 108.0 71.0 186.0 2.911 16.0 27 G 28340 3.5 253 113.0 74.4 207.7 3.564 17.0 23 G 29185 3.5 253 113.0 74.4 197.8 3.567 17.0 23 解:令价格为X1,发动机为X2,功率为X3,轴距为X4,宽为X5,长为X6,轴距为X7,燃料容量为X8,燃料效率为X9,用SPSS找简化的指标系统的具体步骤同7.7。 此时在系统默认情况下提取因子,结果是只抽取了一个成分,从方差贡献来看,前三个成分贡献了90.9%,因此重复因子分析过程,并在第三步Extraction子对话框中的Number of factors后的矩形框中输入3,即为要提取的公因子的数目。因子分析结果如下: 表7.4 旋转后的因子得分系数矩阵 F3F1F2其简化了指标体系为、、,从旋转后的因子得分系数矩阵得: F1,,0.399X1,0.015X2,0.060X3,0.305X4,0.354X5,0.599X6,0.036X7,0.186X8,0.071X9 F2,0.289X1,0.525X2,0.700X3,0.344X4,0.195X5,0.100X6,0.291X7,0.221X8,0.082X9F3,0.342X1,0.278X2,0.409X3,0.241X4,0.338X5,0.332X6,0.494X7,0.651X8,0.239X9 7.9 根据人均 GDP、第三产业从业人员占全部从业人员的比重、第三产业增加值占GDP的比重、人均铺装道路面积、万人拥有公共汽电车、万人拥有医生、百人拥有电话机数、万人拥 有高等学校在校学生人数、人均居住面积、百人拥有公共图书馆藏书、人均绿地面积等十一项指标对目前我国省会城市和计划单列市的城市化进行因子分析,并利用因子得分对其进行排序和评价。(数据可从《中国统计年鉴》查获) (略) 7.10 根据习题5.10中2003年我国省会城市和计划单列市的主要经济指标数据,利用因子分析法对其进行排序和分类,并与聚类分析的结果进行比较。 解:对其进行因子分析的步骤与7.7相同,结果如下: 表7.5 特征根与方差解释分析表 由表7.5可知,提取的两个因子方差贡献达到了82.75%。 表7.6 旋转后的因子得分系数矩阵 由上面的因子得分矩阵可知: F1,,0.093X1,0.100X2,0.167X3,0.258X4,0.219X5,0.248X6,0.057X7,0.086X8,0.233X9F2,0.315X1,0.316X2,0.103X3,0.097X4,0.017X5,0.022X6,0.282X7,0.169X8,0.008X9 ,,12F,F1,F2与主成分分析中计算综合得分同理,用进行加权,得排序: ,,,, F1 F2 F 深圳 382417.42 392989.93 385811.19 上海 157848.03 52892.05 124157.16 厦门 114461.78 107589.61 112255.81 广州 125604.86 49740.69 101252.46 杭州 94835.17 45211.64 78906.02 宁波 91203.35 43854.84 76004.48 北京 102885.84 17864.73 75594.07 南宁 102885.84 17864.73 75594.07 天津 89055.66 32589.70 70930.09 海口 89055.66 32589.70 70930.09 南京 82495.01 39893.01 68819.77 青岛 79248.60 22497.55 61031.51 大连 71586.92 27254.60 57356.24 济南 56561.73 25507.43 46593.30 成都 76035.96 -27268.81 42875.13 福州 51129.12 25240.89 42818.99 乌鲁木齐 50117.93 23629.54 41615.16 沈阳 52143.03 19031.14 41514.12 武汉 53771.95 15104.91 41359.83 长春 48409.60 21920.52 39906.60 太原 43732.74 15165.88 34562.78 郑州 41745.50 15185.84 33219.85 海口 39732.42 17509.21 32598.77 昆明 41593.76 13263.93 32499.88 兰州 37263.61 21287.59 32135.31 长沙 42382.92 9666.19 31880.85 石家庄 40997.75 11439.53 31509.56 重庆 62656.07 -34641.39 31423.58 呼和浩特 36273.21 20652.68 31259.02 西安 37702.57 7531.88 28017.78 哈尔滨 35493.87 9735.24 27225.35 南昌 32831.80 14359.21 26902.10 合肥 32205.35 13387.12 26164.70 贵阳 34499.43 6397.94 25478.85 银川 28935.56 16943.87 25086.23 西宁 23503.44 9499.18 19008.08 南宁 25923.91 4138.99 18930.95 根据F的最终数值进行分类,由于没有给出具体的分类标准,分类具有一定的主观性,只要 合理即可。聚类分析的结果见5.11,可将两者进行比较。 第八章 相应分析 8.1 什么是相应分析,它与因子分析有何关系, 答:相应分析也叫对应分析,通常意义下,是指两个定性变量的多种水平进行相应性研究。其特点是它所研究的变量可以是定性的。 相应分析与因子分析的关系是: 在进行相应分析过程中,计算出过渡矩阵后,要分别对变量和样本进行因子分析。因此,因子分析是相应分析的基础。具体而言, 式表明Zu为相对于特征值的关于因素A各水平构成的协差阵的特j 征向量。从而建立了相应分析中R型因子分析和Q型因子分析的关系。 8.2试述相应分析的基本思想。 答:相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A和B,其中 rc,因素A包含r个水平,因素B包含c个水平。对这两组因素作随机抽样调查,得到一个的二维列联表,记为。要寻求列联表列因素A和行因素B的基本分析特征和最K,()kijrc, 优列联表示。相应分析即是通过列联表的转换,使得因素A 和因素B具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A、B的联系。 8.3 试述相应分析的基本步骤。 答:(1)建立列联表 cABABr设受制于某个载体总体的两个因素为和,其中因素包含个水平,因素包含个 K,()kijrc,rc,水平。对这两组因素作随机抽样调查,得到一个的二维列联表,记为。 (2)将原始的列联资料K=(kij) r ,c变换成矩阵Z=(zij) r ,c,使得zij对因素A和列因素B具 ,,Σ,ZZΣ,ZZ有对等性。通过变换。得,。 cr (3)对因素B 进行因子分析。 ,Σ,ZZ计算出的特征向量 及其相应的特征向量 c 计算出因素B的因子) (4)对因素A 进行因子分析。 ,Σ,ZZ计算出的特征向量 及其相应的特征向量 r 计算出因素A的因子 (5)选取因素B 的第一、第二公因子 选取因素A 的第一、第二公因子 将B因素的c个水平,, A因素的r个水平 同时反应到相同坐标轴的因子平面上上 (6)根据因素A和因素B各个水平在平面图上的分布,描述两因素及各个水平之间的相关关系。 8.4在进行相应分析时,应注意哪些问题, 答:要注意通过独立性检验判定是否有必要进行相应分析。因此在进行相应分析前应做独立性检验。 独立性检验中,:因素A和因素B是独立的;:因素A和因素B不独立 HH10 由上面的假设所构造的统计量为 2rcˆrckEk,[()]ijij22 ,kz(),,,,,,ijˆEk(),,,,ij1111ijij 22其中,拒绝区域为 zkkkkkk,,(/)/,,,,,[(1)(1)]rcijijijij....,,1 应该注意几个问题。 第一,这里的是原始列联资料通过相应变换以后得到的资料阵zK,()kijijrc, 2Z,()z的元素。说明z与统计量有着内在的联系。 ,ijrc,ij 2BA第二,关于因素和因素各水平构成的协差阵和, ,ΣΣtrtrk()()/ΣΣ,,,crcr这里表示矩阵的迹。 tr(.) ABAB第三,独立性检验只能判断因素和因素是否独立。如果因素和因素独立,则 AB没有必要进行相应分析;如果因素和因素不独立,可以进一步通过相应分析考察两因素各个水平之间的相关关系。 第九章 典型相关分析 9.1 什么是典型相关分析,简述其基本思想。 答: 典型相关分析是研究两组变量之间相关关系的一种多元统计方法。用于揭示两组变量之间的内在联系。典型相关分析的目的是识别并量化两组变量之间的联系。将两组变量相关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系。 基本思想: (1)在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。即: (1)(1)(1)(1)(2)(2)(2)(2)若设、是两组相互关联的随机变量,X,(,,,)XXX?X,(,,,)XXX?pq1212 分别在两组变量中选取若干有代表性的综合变量Ui、Vi,使是原变量的线性组合。 ,()(1)()(1)()(1)()(1)iiii UaXaXaX,,,,? aX iPP1122 ,()(2)()(2)()(2)()(2)iiiiVbXbXbX,,,,? bX iqq1122 (1)(1)(1)(2)(1)(1)(1)(2),,,,在的条件下,使得达到最大。(2)选取DD()()1aXbX,,,(,)aXbX 和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对。 (3)如此继续下去,直到两组变量之间的相关性被提取完毕为此。 9.2 什么是典型变量,它具有哪些性质, 答:在典型相关分析中,在一定条件下选取系列线性组合以反映两组变量之间的线性关系,这被选出的线性组合配对被称为典型变量。具体来说, (1)(1)(1)(1)(2)(2)(2)(2) X,(,,,)XXX?X,(,,,)XXX?、 pq1212,()(1)()(1)()(1)()(1)iiii UaXaXaX,,,,? aXiPP1122 ,()(2)()(2)()(2)()(2)iiiiVbXbXbX,,,,? bX iqq1122 (1)(1)(1)(2)(1)(1)(1)(2),,,,在的条件下,使得达到最大,则称DD()()1aXbX,,,(,)aXbX ,(1)(2)(1)(2)(1)(1),bX、是X、X的第一对典型相关变量。 aX 典型变量性质: 典型相关量化了两组变量之间的联系,反映了两组变量的相关程度。 1. DUDVkr()1,()1(1,2,,),,,?kk CovUUCovVVij(,)0,(,)0(),,, ijij ,,,,0(,1,2,,)ijir?,i,CovUVij(,)0(),,2. ,ij ,0()jr,, 9.3 试分析一组变量的典型变量与其主成分的联系与区别。 答:一组变量的典型变量和其主成分都是经过线性变换计算矩阵特征值与特征向量得出的。主成分分析只涉及一组变量的相互依赖关系而典型相关则扩展到两组变量之间的相互依赖关系之中,度量了这两组变量之间联系的强度。 9.4 简述典型相关分析中载荷分析的内容及作用。 p答:作用:进行典型载荷分析有助于更好解释分析已提取的对典型变量。分析原始变量与典型变量之间相关性。 内容: (1)(1)UV,,,,,,,,ab11,,,,,,,,(2)(2)UVab22**,,,,,,,,A,B,U,V,令 ,,,,,,,,????,,,,,,,,()p()pUVab,,,,pp,,,,,,,, *(1)*(2) UAXVBX,, **UV其中,为对典型变量系数向量组成的矩阵,和为对典型变量组成的向ppAB (1)*(1)(1)*量。则 CovCov(,)(,)UXAXXA,,Σ11 (1)CovUX(,)(1)ik,CorrUX(,)ik(1)DUDX()()ik (1)CovUX(,),1/2(1)ik,,,CovUX(,)ikkk(1)DX()k (1)1/2,1/2,1/2DX(),,这里,。记为对角元素是的对角阵,所以有 DU()1,V,kkki11kk (1)1/2(1),RUXUVX,,CorrCov(,)(,)(1)11UX, *(1)1/2(1)*1/2,,,,Cov(,)AXVXAΣV111111 类似可得: *1/2,*1/2,*1/2, RB,ΣVRA,ΣVRB,ΣV(2)(2)(1)211112222222VX,UX,VX, 对于经过标准化处理后得到的典型变量有: ****; ; RAR,RBR,RAR,RBR,(1)(2)(2)(1)Z11Z12Z22Z21UZ,UZ,VZ,VZ, 对于样本典型相关分析,上述结果中的数量关系同样成立。 9.5 简述典型相关分析中冗余分析的内容及作用。 答:典型冗余分析的作用即分析每组变量提取出的典型变量所能解释的该组样本总方差的比 例,从而定量测度典型变量所包含的原始信息量。 trp()R,trq()R,第一组变量样本的总方差为,第二组变量样本的总方差为。 1122***(1)ˆˆˆˆ和是样本典型相关系数矩阵,典型系数向量是矩阵的行向量,,ABUAZ,zzz *(2)ˆˆ。 VBZ,z 前对典型变量对样本总方差的贡献为 r pr(1)(1)(2)(2)()()2rr,,,ˆˆˆˆˆˆ trr()aaaaaa?,,,,(1),,ˆzzzzzz,zUik,,11ikqr(1)(1)(2)(2)()()2rrˆˆˆˆˆˆ,,, trrbbbbbb?,,,,()(2),,ˆzzzzzz,zViK,,11ik pr2r(1),,ˆzU,ikik11,,则第一组样本方差由前个典型变量解释的比例为 Rd,r(1)ˆzU|p qr2r(2),,ˆzV,ikik11,,第二组样本方差由前个典型变量解释的比例为Rd,r(2)ˆzV|q 9.6 设和分别是p维和q维随机向量,且存在二阶距,设p?q。它们的第i对典型变XY **()i()i,,XCXl,,YDYm,,量分别为、,典型相关系数为,。令,,,(1,,)ip,?aXbYi l其中C、D分别为阶非奇异阵,、分别为p维、q维随机向量,试证明 ppqq,,,m **,1()*i,1()*i,,iXY、? 的第对典型变量为、。 CaXDbY ,1()*i,1()*i,,? 与的典型相关系数为。 ,CaXDbYi 9.7 对140名学生进行了阅读速度、阅读能力、运算速度和运算能力的四种测验,xxyy1122所得成绩的相关系数阵为 10.030.240.59,, ,,0.0310.060.07,, R,,,0.240.0610.24 ,,0.590.070.241,, 试对阅读本领与运算本领之间进行典型相关分析。 解:根据已知可得 == == 计算得的特征值为 提取第一典型变量为 其中,分别为原始变量标准化后的结果。 按照常识,不应该有负数系数啊,不知道怎么回事。 9.8 某年级学生的期末考试中,有的课程闭卷考试,有的课程开卷考试。44名学生的成绩如下表: 闭卷 开卷 闭卷 开卷 力学 物理 代数 分析 统计 力学 物理 代数 分析 统计 XXXXXXXXXX135135242477 82 67 67 81 63 78 80 70 81 75 73 71 66 81 55 72 63 70 68 63 63 65 70 63 53 61 72 64 73 51 67 65 65 68 59 70 68 62 56 62 60 58 62 70 64 72 60 62 45 52 64 60 63 54 55 67 59 62 44 50 50 64 55 63 65 63 58 56 37 31 55 60 57 76 60 64 56 54 40 44 69 53 53 53 42 69 61 55 45 62 46 61 57 45 31 49 62 63 62 44 61 52 62 45 49 41 61 49 64 12 58 61 63 67 49 53 49 62 47 54 49 56 47 53 54 53 46 59 44 44 56 55 61 36 18 44 50 57 81 46 52 65 50 35 32 45 49 57 64 30 69 50 52 45 46 49 53 59 37 40 27 54 61 61 31 42 48 54 68 36 59 51 45 51 56 40 56 54 5 46 56 57 49 32 45 42 55 56 40 42 60 54 49 33 40 63 53 54 25 23 55 59 53 44 48 48 49 51 37 41 63 49 46 34 46 52 53 41 40 试对闭卷(,)和开卷(,,)两组变量进行典型相关分析。 XXXXX13524 9.9 邓讷姆(Dunham)在研究职业满意度与职业特性的相关程度时,对从一大型零售公司各分公司挑出的784位行政人员测量了5个职业特性变量:用户反馈、任务重要性、任务多样性、任务特性及自主性,7个职业满意度变量:主管满意度、事业前景满意度、财政满意度、工作强度满意度、公司地位满意度、工种满意度及总体满意度。两组变量的样本相关矩阵为: 1.00,, ,,0.491.00,,ˆ,,R,0.530.571.00 11,,0.490.460.481.00,, ,,0.510.530.570.571.00,, 1.00,, ,,0.431.00,, ,,0.270.331.00 ,,ˆR,0.240.260.251.00 22,, ,,0.340.540.460.281.00,,0.370.320.290.300.351.00,, ,,0.400.580.450.270.590.311.00,, 0.330.320.200.190.300.370.21,, ,,0.300.210.160.080.270.350.20,,ˆˆ ,,RR,,0.310.230.140.070.240.370.181221,,0.240.220.120.190.210.290.16,, ,,0.380.320.170.230.320.360.27,, 试对职业满意度与职业特性进行典型相关分析。 9.10 试对一实际问题进行典型相关分析。
本文档为【应用多元统计分析课后答案_朱建平版】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_633808
暂无简介~
格式:doc
大小:1MB
软件:Word
页数:90
分类:生活休闲
上传时间:2017-10-23
浏览量:170