首页 统计聚类分析

统计聚类分析

统计聚类分析第十九章聚类分析（clusteringanalysis）判别分析:在已知分为若干个类的前提下，获得判别模型，并用来判定观察对象的归属。聚类分析:将随机现象归类的统计学方法，在不知道应分多少类合适的情况下，试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。已成为发掘海量基因信息的首选工具。二者都是研究分类问题的多元统计分析方法。聚类分析属于探索性统计分析方法，按照分类目的可分为两大类。例如测量了n个病例（样品）的m个变量（指标），可进行：（1）R型聚类:又称指标聚类，是指将m个指标归类的方法，其目的是...

第十九章聚类分析（clusteringanalysis）判别分析:在已知分为若干个类的前提下，获得判别模型，并用来判定观察对象的归属。聚类分析:将随机现象归类的统计学方法，在不知道应分多少类合适的情况下，试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。已成为发掘海量基因信息的首选工具。二者都是研究分类问题的多元统计分析方法。聚类分析属于探索性统计分析方法，按照分类目的可分为两大类。例如测量了n个病例（样品）的m个变量（指标），可进行：（1）R型聚类:又称指标聚类，是指将m个指标归类的方法，其目的是将指标降维从而选择有代表性的指标。（2）Q型聚类:又称样品聚类，是指将n个样品归类的方法，其目的是找出样品间的共性。无论是R型聚类或是Q型聚类的关键是如何定义相似性，即如何把相似性数量化。聚类的第一步需要给出两个指标或两个样品间相似性的度量——相似系数（similaritycoefficient）的定义。第一节相似系数1．R型（指标）聚类的相似系数X1，X2，…，Xm表示m个变量，R型聚类常用简单相关系数的绝对值定义变量与间的相似系数：绝对值越大表明两变量间相似程度越高。同样也可考虑用Spearman秩相关系数定义非正态变量与间的相似系数。当变量均为定性变量时，最好用列联系数定义类间的相似系数。2．Q型（样品）聚类常用相似系数将n例（样品）看成是m维空间的n个点，用两点间的距离定义相似系数，距离越小表明两样品间相似程度越高。（1）欧氏距离:欧氏距离（Euclideandistance）（2）绝对距离：绝对距离（Manhattandistance）（3）Minkowski距离：绝对距离是q=1时的Minkowski距离；欧氏距离是q=2时的Minkowski距离。Minkowski距离的优点是定义直观，计算简单；缺点是没有考虑到变量间的相关关系。基于此引进马氏距离。（4）马氏距离：用表示m个变量间的样本协方差矩阵，马氏距离（Mahalanobisdistance）的计算公式为其中向量。不难看出，当（单位矩阵）时，马氏距离就是欧氏距离的平方。以上定义的4种距离适用于定量变量，对于定性变量和有序变量必须在数量化后方能应用。第二节系统聚类系统聚类（hierarchicalclusteringanalysis）是将相似的样品或变量归类的最常用方法，聚类过程如下：1）开始将各个样品（或变量）独自视为一类，即各类只含一个样品（或变量），计算类间相似系数矩阵，其中的元素是样品（或变量）间的相似系数。相似系数矩阵是对称矩阵；2）将相似系数最大（距离最小或相关系数最大）的两类合并成新类，计算新类与其余类间相似系数；重复第二步，直至全部样品（或变量）被并为一类。一、类间相似系数的计算系统聚类的每一步都要计算类间相似系数（即：新形成的类别与其他类之间的类间相似系数的确定），当两类各自仅含一个样品或变量时，两类间的相似系数即是两样品或变量间的相似系数或，按第一节的定义计算。当类内含有两个或两个以上样品或变量时，计算类间相似系数有多种方法可供选择，下面列出5种计算方法。用分别表示两类，各自含有个样品或变量。(np与nq分别代表Gp与Gq两类的样品或变量数)1．最大相似系数法类中的个样品或变量与类中的个样品或变量两两间共有个相似系数，以其中最大者定义为与的类间相似系数。注意距离最小即相似系数最大。2．最小相似系数法类间相似系数计算公式为3．重心法（仅用于样品聚类）用分别表示的均值向量（重心），其分量是各个指标类内均数，类间相似系数计算公式为4．类平均法（仅用于样品聚类）对Gp类中的np个样品与Gq类中的nq个样品两两间的个平方距离求平均，得到两类间的相似系数类平均法是系统聚类方法中较好的方法之一，它充分反映了类内样品的个体信息。5．离差平方和法又称Ward法，仅用于样品聚类。此法效仿方差分析的基本思想，即合理的分类使得类内离差平方和较小，而类间离差平方和较大。假定n个样品已分成g类，是其中的两类。此时有个样品的第k类的离差平方和定义为：，其中为类内指标的均数。所有g类的合并离差平方和为。如果将与合并，形成g-1类，它们的合并离差平方和。由于并类引起的合并离差平方和的增量定义为两类间的平方距离。显然，当n个样品各自成一类时，n类的合并离差平方和为0。例19-1测量了3454名成年女子身高（X1）、下肢长（X2）、腰围（X3）和胸围（X4），计算得相关矩阵：试用系统聚类法将这4个指标聚类。本例是R型（指标）聚类，相似系数选用简单相关系数，类间相似系数采用最大相似系数法计算。聚类过程如下：（1）各个指标独自成一类G1={X1}，G2={X2}，G3={X3}，G4={X4}，共4类。（2）将相似系数最大的两类合并成新类，由于G1和G2类间相似系数最大，等于0.852，将两类合并成G5={X1,X2}，形成3类。计算G5与G3、G4间的类间相似系数G3，G4，G5的类间相似矩阵（3）由于G3和G4类间相似系数最大，等于0.732，将两类合并成G6={G3,G4}，形成两类。计算G6与G5间的类间相似系数。（4）最终将G5,G6合并成G7={G5,G6},所有指标形成一大类。根据聚类过程，绘制出系统聚类图（见图19-1）。图中显示分成两类较好：{X1，X2}，{X3，X4}，即长度指标归为一类，围度指标归为另一类。身高下肢长腰围胸围G1G2G3G4图19-14个指标聚类的系统聚类图0.8520.7320.234例19-2今测得6名运动员4个运动项目（样品）的能耗、糖耗的均数见表19-1，欲对运动项目归类，以便提供相应的膳食标准，提高运动成绩。试用样品系统聚类法将运动项目归类。0.665-0.48861.2520.913G4仰卧起坐-1.441-1.00145.1318.924G3俯卧撑0.0880.17456.8323.475G2引体向上0.6881.31561.4227.892G1负重下蹲糖耗X2（%）能耗X1（焦耳/分、m2）运动项目名称表19-14个运动项目的测定值变量的标准化X1‘X2’本例选用欧氏距离，类间距离选用最小相似系数法。为了克服变量量纲的影响，分析前先将变量标准化，分别是Xi的样本均数与标准差。变换后的数据列在表19-1的，列。聚类过程如下：（1）计算4个样品间的相似系数矩阵，样品聚类中又称为距离矩阵。负重下蹲与引体向上之间的距离按公式（19-3）计算得同样负重下蹲与俯卧撑之间的距离同理，计算出距离矩阵（2）G2，G4间距离最小，将G2，G4并成一新类G5={G2，G4}。应用最小相似系数法，按公式（19-8）计算G5与其他各类之间的距离G1，G3，G5的距离矩阵（3）G1，G5间距离最小，将G1，G5并成一新类G6={G1，G5}。计算G6与G3之间的距离（4）最终将G1,G6合并成G7={G1,G6},所有指标形成一大类。d15=Max（d12，d14）=Max（1.289，1.803）=1.803d35=Max（d23，d34）=Max（1.928，2.168）=2.168根据聚类过程，绘制出系统聚类图（见图19-2）。结合系统聚类图和专业知识认为分成两类较好：{G1，G2，G4}，{G3}。负重下蹲、引体向上、仰卧起坐三个运动项目体能消耗较大，训练时应提高膳食标准。图19-24个运动项目样品聚类的系统聚类图G2G4G1G3G5G6G7例19-3调查了27名沥青工和焦炉工的年龄、工龄、吸烟情况，检测了血清P21、P53、外周血淋巴细胞SCE、染色体畸变数和染色体畸变细胞数。数据列于表19-3，其中P21倍数=P21检测值/对照组P21均数。试用系统聚类法将27名工人归类。1228.800.692.2528622032502715515.000.413.4043222014342611112.250.782.082638309252511111.650.372.062612209282425511.810.855.6271422018372315711.800.523.454381310262210011.950.473.093926027432126712.280.995.3968512027442011111.400.692.312936521381910011.400.372.64336052140181141613.650.333.1139482027441716713.800.733.894941302742161101111.450.722.9537491032521513311.150.162.352984032521414410.500.823.013827012371310010.000.251.9524782015361212210.760.192.9938001530571120013.110.125.89748220204210181013.450.473.95501902950913311.350.463.674658201734815511.400.402.51319410940712211.600.372.923710303151615511.680.802.56324702238516911.450.471.9324512073241334.110.542.19278420255231336.841.432.76351020123521448.110.351.682138525461聚类结果染色体畸变细胞数染色体畸变数SCEP53P21倍数血清P21吸烟支/d工龄年龄工人编号(样品号)表19-3沥青工和焦炉工的生物标志物检测及聚类分析结果本例选择了欧氏距离下的最小相似系数法、类平均法和离差平方和法对数据进行聚类分析。分析结果分别见图19-3、图19-4、图19-5。数据分析前，各变量已作标准化处理。图19-327名沥青工和焦炉工的最小相似系数法系统聚类图图19-427名沥青工和焦炉工的类平均法系统聚类图图19-527名沥青工和焦炉工离差平方和法的系统聚类图三种聚类结果有较大的出入，可见这些方法分类效果是有差异的，特别是在分类变量较多时差异愈加明显，这就要求在聚类分析前，尽可能地选择有效变量，如本例的变量P21和P53倍数。详细解读聚类图，一般都能够获得许多有用的信息。（聚类实例分析结果）相似系数的定义以及类间相似系数的定义的不同将导致系统聚类结果有所差异。聚类分析的结果解释除了要了解聚类方法外，还必须结合专业知识。结合专业知识，本例认为类平均法聚类结果比较合理，分类结果列入表19-3最后一栏。它将{10，20，23}号工人分为一类，其余分为另一类。研究者最终发现10，20，23号工人为癌症高危人群。根据离差平法和法聚类图，不难发现{10，20，23，8，16，26}号聚在一类，提示8，16，26号工人也可能是癌症高危人群之一。以下列出类平均法具体聚类过程，供参考。7.1642类26新合并成新17类),(新25类26步6.9102类25新合并成新21类),(新24类25步6.1086类24新合并成新22类),(新23类24步5.2479类23新合并成样品2),(新19类23步4.5420类22新合并成新14类),(新20类22步4.4155类21新合并成样品10),(新15类21步4.0824类20新合并成样品3),(新18类20步3.9379类19新合并成新13类),(新16类19步3.5808类18新合并成新9类),(新11类18步3.4346类17新合并成样品17),(新10类17步3.1127类16新合并成新8类),(新12类16步2.9605类15新合并成样品16),(新4类15步2.8696类14新合并成新2类),(新5类14步2.7956类13新合并成样品25),(新3类13步2.5590类12新合并成样品22),(新7类12步2.3833类11新合并成样品27),(新6类11步2.2007类10新合并成样品15),(样品910步2.1620类9新合并成样品14),(样品19步1.9317类8新合并成样品7),(样品48步1.9098类7新合并成样品26),(样品87步1.8243类6新合并成样品11),(样品66步1.7079类5新合并成样品19),(新1类5步1.6050类4新合并成样品23),(样品204步1.5225类3新合并成样品24),(样品123步1.4969类2新合并成样品13),(样品52步1.1856类1新合并成样品21),(样品181步欧氏距离两类合并聚类步骤类平均法系统聚类过程动态样品聚类当待分类的样品较多时，如海量数据挖掘，系统聚类分析将耗费较多的计算资源来储存相似系数矩阵，计算速度缓慢。另外，用系统聚类方法聚类，样品一旦归类后就不再变动了，这就要求分类十分准确。针对系统聚类方法的这些缺陷，统计学者提出所谓动态聚类分析方法，这种分类方法既解决了计算速度问题，又能随着聚类的进展对样品的归类进行调整。动态样品聚类的原理是：首先确定几个有代表性的样品，称之为凝聚点，作为各类的核心，然后将其他样品逐一归类，归类的同时按某种规则修改各类核心直至分类合理为止。动态样品聚类方法中最常用的一种是k-means法.这种方法原理简单，分类快速，一般经过几轮归类就收敛了，即使样品很多也能迅速得到分类结果。此法的缺点是要事先知道分类数目。在某些具体问题中分类数目根据专业知识是完全可以事先确定的，而在有的问题中分类数目则难以确定。有序样品聚类前面讲到的样品聚类分析方法，适用于无序样品的分类。在科学研究中存在另一类型的资料，各样品在时域或空域存在自然顺序，如生长发育资料的年龄顺序，发病率的年代顺序和地理位置。我们称这种样品为有序样品。对有序样品分类时要考虑到样品的顺序特性这个前提条件，分类时不破坏样品间的顺序，由此形成的样品聚类方法称为有序样品聚类（ordinalclusteringmethods）。应用注意事项1．聚类分析方法常用于数据的探索性分析，聚类分析的结果解释应密切结合专业知识，同时尝试用多种聚类方法分类，才能获得较理想的结论。2．聚类前应对变量作预处理，剔除无效变量（变量值变化很小）、缺失值过多的变量。一般需对变量作标准化变换或极差变换，以消除量纲和变异系数大幅波动的影响。3．较理想的样品分类结果应使类间差异大，类内差异较小。分类后单变量时应用方差分析，多变量时应用多元方差分析检验类间差异有无统计学意义。4．模糊聚类（fuzzyclusteringanalysis），神经网络（neuro-networks）聚类，以及对基因库作数据挖掘的特殊聚类分析方法，本章由于篇幅所限均未加介绍。需要时可登陆互联网查询。学习愉快！

                    本文档为【统计 聚类分析】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

统计 聚类分析

你可能还喜欢

统计聚类分析