首页 spss聚类分析的无量纲化方法比较

spss聚类分析的无量纲化方法比较

spss聚类分析的无量纲化方法比较 229 SPSS聚类分析中数据无量纲化方法比较 Comparison of Undimensionalization in SPSS Cluster Analysis 韩胜娟 Han Shengjuan （华东交通大学，江西南昌 330013）（School of Economics and Management, East China Jiaotong University, Jiangxi Nanchang330013）摘要: 聚类分析方法作为一种多指标综合评价方法，其在分析过程中数据无量纲化...

229 SPSS聚类分析中数据无量纲化方法比较 Comparison of Undimensionalization in SPSS Cluster Analysis 韩胜娟 Han Shengjuan （华东交通大学，江西南昌 330013）（School of Economics and Management, East China Jiaotong University, Jiangxi Nanchang330013）摘要: 聚类分析方法作为一种多指标综合评价方法，其在分析过程中数据无量纲化处理就是必不可少的。SPSS软件聚类分析菜单提供了四大类指标数据无量纲化处理方法，不同处理方法的特点不同，适用的数据也不尽相同。本文试图对不同的无量纲化处理方法的特点和适用数据进行分析。关键词: SPSS ; 聚类分析; 无量纲化方法中图分类号：O212.4 文献标识码：A 文章编号：1671-4792-(2008)3-0017-03 Abstract: The cluster analysis is one multi-objective quality synthetic evaluation method, Undimensionalization is essential in the analysis process. In SPSS cluster analysis menu provid four Undimensionalization methods, the different Undimensionalization's characteristic is different, the suitable data is also different, this article attempts to carry on this. Keywords: SPSS; Cluster Analysis; Undimensionalization 聚类分析是目前广泛使用的一种建立分类的多元统计分析方法。针对复杂的社会经济现象利用聚类分析方法进行综合分析时，往往需要建立广泛而全面的统计分析指标体系。而各个指标之间由于计量单位和数量级不尽相同，从而使得各指标间不具有综合性，不能直接进行综合分析，这时就必须采用某种方法对各指标数值进行无量纲化处理，解决各指标数值不可综合性问题。利用SPSS统计分析软件可以很方便的进行聚类分析。另外，SPSS软件聚类分析菜单中提供了下面四大类指标无量纲化处理方法。第一大类: 极值化方法。在SPSS中提供了以下三种极值化方法。 ①Range -1 to 1: （1）即每一变量值除以该变量取值的全距。标准化后将各变量的取值范围限于－1～1。 ②Range 0 to 1: （2）即每一变量值与变量最小值之差除以该变量取值的全距。标准化后将各变量的取值范围限于0～1。 ③Maximum magnitude of 1: （3）即每一变量值除以该变量取值的最大值。标准化后使各变量的最大取值为1。采用极值化方法对变量数据无量纲化是通过利用变量取值的最大值和最小值将原始数据转换为界于某一特定范围的数据，从而消除量纲和数量级影响，改变变量在分析中的权重来解决不同度量的问题。为了说明问题，我们以2004年北京、天津、上海大中型工业企业的利润总额、总资产贡献率、流动资产周转次数这三个主要经济效益指标为例，分别以原始数据（见表一）和采用（2）式的无量纲化数据进行聚类分析，计算三个样本城市的欧式距离平方（见表二）。表一 2004年大中型工业企业主要经济指标资料来源:《中国统计年鉴2005》 S P S S ??????????????? Administrator 线条 Administrator 线条 230 科技广场 2008.3 表二不同样本组合欧式距离平方从表中可以看出，利用原始数据分析时，北京与天津的关系最为密切、最相近，其次是天津与上海，最后是北京与上海，说明利润总额这一指标起了主要作用，其权数较大; 将原始数据按（2）式无量纲化处理后分析时，天津与上海的关系最为密切，其次是北京与上海，最后是北京与天津。由于选取的样本个数较少，标准化后的指标值又界于0～1 间，这时三个指标的权重近似相同，从而降低了利润总额这一指标的权重，提高了其它两个指标的权重。由于极值化方法在对变量无量纲化过程中仅仅与该变量的最大值和最小值这两个极端值有关，而与其他取值无关，这使得该方法在改变各变量权重时过分依赖两个极端取值。如果两个变量取值相近，其分析权重近似相同，但其中一个原始变量数据中存在一个明显的极大值，这就会使其无量纲化后的数据普遍低于不存在极端取值的变量，从而造成两个变量分析权重的不同。因此，在选用此方法无量纲化时应谨慎对待数据中的极端值。第二大类: 标准化方法，即每一变量值与其平均值之差除以该变量的标准差。无量纲化后各变量的平均值为0，标准差为1，从而消除量纲和数量级的影响。 Z scores: （4）该方法是目前多变量综合分析中使用最多的一种方法。在原始数据呈正态分布的情况下，利用该方法进行数据无量纲处理是较合理的。虽然该方法在无量纲化过程中利用了所有的数据信息，但是该方法在无量纲化后不仅使得转换后的各变量均值相同，且标准差也相同，即无量纲化的同时还消除了各变量在变异程度上的差异，从而转换后的各变量在聚类分析中的重要性程度是同等看待的。而实际分析中，经常根据各变量在不同单位间取值的差异程度大小来决定其在分析中的重要性程度，差异程度大的其分析权重也相对较大。因此，该方法在无量纲化过程中不能满足这一方面的要求。第三大类: 均值化方法，即每一变量值除以该变量的平均值。标准化后各变量的平均值都为1，标准差为原始变量的变异系数。 Mean of 1: （5）该方法在消除量纲和数量级影响的同时，保留了各变量取值差异程度上的信息，差异程度越大的变量对综合分析的影响也越大。该无量纲化方法在保留原始变量变异程度信息时，并不是仅取决于原始变量标准差，而是原始变量的变异系数，这也就保证了保留变量变异程度信息的同时数据的可比性问题。第四大类: 标准差化方法，即每一变量值除以该变量的标准差。无量纲化后各变量的标准差都为1。 Standard deviation of 1: （6）该方法是在标准化方法的基础上的一种变形。它与标准化方法相同的是，无量纲化处理后各变量标准差相同，从而转换后的各变量在聚类分析中是同等重要的，两者的差别仅在无量纲化后各变量的均值上，标准化方法处理后各变量均值为0，而标准差化方法处理后各变量均值为原始变量均值与标准差的比值，即变异系数的倒数，这就会对分析产生一些错误信息。如有分析变量中，部分变量变异系数很大，部分变量变异系数很小，采用（6）式无量纲化处理后的数据则使原变异系数越大的取值越小，原变异系数越小的取值越大，从而产生错误的权重信息。如果各变量变异系数相差不大，那么采用（6）式无量纲化处理与采用（4）式无量纲化处理结果相类似。因此，这种无量纲化处理方法较少使用。为了清晰的看出标准化、均值化和标准差化这三种无量纲化处理方法对分析的影响，我们取北京、天津、上海、重庆4 个城市的工业总产值和资产负债率数据为原始资料（见表三），分别以原始数据、（4）式无量纲化数据、（5）式无量纲化数据和（6）式无量纲化数据做聚类分析，给出样本城市间欧式距离平方（见表四）。表三 2004年直辖市工业总产值和资产负债率 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 231 资料来源:《中国统计年鉴2005》表四不同样本组合欧式距离平方从表三可看出，4个城市在资产负债率这一指标上取值变化很小，其标准差为4.74，变异系数为0.0865。而在工业总产值这一指标上取值差异很大，标准差为1157.34217，变异系数为0.6477，说明不同城市的工业总产值差异显著。在利用这两个指标对样本进行聚类分析时，工业总产值这一指标更能体现样本间的差异，其分析权重应高于资产负债率指标分析权重。从表四数据可知，根据原始数据计算的样本间欧式距离平方的大小排列顺序与根据（5）式无量纲化后数据计算的样本间欧式距离平方的排列顺序一致，利用（4）式无量纲化后数据计算的样本间欧式距离平方的排列顺序与利用（6）式无量纲化后数据计算的样本间欧式距离平方的排列顺序一致。我们知道利用未经标准化的原始数据分析时，由于变量量纲和数量级的不同，工业总产值起决定性作用，而（5）式无量纲化数据的分析结果与原始数据的分析结果一致，说明按（5）式标准化后数据分析时工业总产值仍起重要作用，这种无量纲化方法仅消除了量纲和数量级的影响，保留了原始数据变异程度的信息。按（4）式无量纲化数据不仅消除了量纲和数量级的影响，也消除了各变量变异程度的差异，将无量纲化后的两个变量同等看待，从而使得其分析结果与（5）式无量纲化数据的分析结果不一致。由于我们选择的距离计算式是欧式距离平方，因此，（4）式与（6）式无量纲化后数据计算的样本间欧式距离平方的排列顺序不仅一致，且完全相同，说明这两种无量纲化方法在处理数据过程中都消除了原始数据的变异程度信息，将所有变量同等看待。综上所述，利用SPSS软件进行聚类分析时，根据不同的无量纲化方法的特点，针对进行聚类分析的具体数据可以选择相应的无量纲化处理方法。同时也要注意到，SPSS软件聚类分析中提供的各种无量纲化方法都是直线型无量纲化方法，客观实际中并不都是简单的直线型关系，还存在折线型或曲线型关系，这时仍采用直线型无量纲化方法就会产生数据处理误差，就必须根据数据特点采用相应的折线型无量纲化方法或曲线型无量纲化方法。参考文献 [1]薛薇．统计分析与SPSS的应用[M]．北京:中国人民大学出版社，2003,12:225-236． [2]叶宗裕．关于多指标综合评价中指标正向化和无量纲化方法的选择[J]．浙江统计，2003,(4):24-25． [3]张卫华,赵铭军．指标无量纲化方法对综合评价结果可靠性的影响及其实证分析[J]．统计与信息论坛，2005, (3):33-36． [4]马立平．统计数据标准化——无量纲化方法[J]．北京统计，2000,3:34-35．作者简介韩胜娟，女，讲师，华东交通大学经济管理学院。 S P S S ???????????????

                    本文档为【spss聚类分析的无量纲化方法比较】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

spss聚类分析的无量纲化方法比较

你可能还喜欢