首页 spss聚类分析的无量纲化方法比较

spss聚类分析的无量纲化方法比较

举报
开通vip

spss聚类分析的无量纲化方法比较 229 SPSS聚类分析中数据无量纲化方法比较 Comparison of Undimensionalization in SPSS Cluster Analysis 韩胜娟 Han Shengjuan (华东交通大学,江西 南昌 330013) (School of Economics and Management, East China Jiaotong University, Jiangxi Nanchang330013) 摘 要: 聚类分析方法作为一种多指标综合评价方法,其在分析过程中数据无量纲化...

spss聚类分析的无量纲化方法比较
229 SPSS聚类 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 中数据无量纲化方法比较 Comparison of Undimensionalization in SPSS Cluster Analysis 韩胜娟 Han Shengjuan (华东交通大学,江西 南昌 330013) (School of Economics and Management, East China Jiaotong University, Jiangxi Nanchang330013) 摘 要: 聚类分析方法作为一种多指标综合评价方法,其在分析过程中数据无量纲化处理就是必不可少的。SPSS软件 聚类分析菜单提供了四大类指标数据无量纲化处理方法,不同处理方法的特点不同,适用的数据也不尽相同。本文试图对 不同的无量纲化处理方法的特点和适用数据进行分析。 关键词: SPSS ; 聚类分析; 无量纲化方法 中图分类号:O212.4 文献标识码:A 文章编号:1671-4792-(2008)3-0017-03 Abstract: The cluster analysis is one multi-objective quality synthetic evaluation method, Undimensionalization is essential in the analysis process. In SPSS cluster analysis menu provid four Undimensionalization methods, the different Undimensionalization's characteristic is different, the suitable data is also different, this article attempts to carry on this. Keywords: SPSS; Cluster Analysis; Undimensionalization 聚类分析是目前广泛使用的一种建立分类的多元统计分 析方法。针对复杂的社会经济现象利用聚类分析方法进行综 合分析时,往往需要建立广泛而全面的统计分析指标体系。 而各个指标之间由于计量单位和数量级不尽相同,从而使得 各指标间不具有综合性,不能直接进行综合分析,这时就必 须采用某种方法对各指标数值进行无量纲化处理,解决各指 标数值不可综合性问题。利用SPSS统计分析软件可以很方便 的进行聚类分析。另外,SPSS软件聚类分析菜单中提供了下 面四大类指标无量纲化处理方法。 第一大类: 极值化方法。在SPSS中提供了以下三种极 值化方法。 ①Range -1 to 1: (1) 即每一变量值除以该变量取值的全距。标准化后将各变 量的取值范围限于-1~1。 ②Range 0 to 1: (2) 即每一变量值与变量最小值之差除以该变量取值的全 距。标准化后将各变量的取值范围限于0~1。 ③Maximum magnitude of 1: (3) 即每一变量值除以该变量取值的最大值。标准化后使各 变量的最大取值为1。 采用极值化方法对变量数据无量纲化是通过利用变量取 值的最大值和最小值将原始数据转换为界于某一特定范围的 数据,从而消除量纲和数量级影响,改变变量在分析中的权 重来解决不同度量的问题。为了说明问题,我们以2004年北 京、天津、上海大中型工业企业的利润总额、总资产贡献率、 流动资产周转次数这三个主要经济效益指标为例,分别以原 始数据(见 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 一)和采用(2)式的无量纲化数据进行聚类 分析,计算三个样本城市的欧式距离平方(见表二)。 表一 2004年大中型工业企业主要经济指标 资料来源:《中国统计年鉴2005》 S P S S ??????????????? Administrator 线条 Administrator 线条 230 科技广场 2008.3 表二 不同样本组合欧式距离平方 从表中可以看出,利用原始数据分析时,北京与天津的 关系最为密切、最相近,其次是天津与上海,最后是北京与 上海,说明利润总额这一指标起了主要作用,其权数较大; 将原始数据按(2)式无量纲化处理后分析时,天津与上海 的关系最为密切,其次是北京与上海,最后是北京与天津。 由于选取的样本个数较少,标准化后的指标值又界于0~1 间,这时三个指标的权重近似相同,从而降低了利润总额这 一指标的权重,提高了其它两个指标的权重。 由于极值化方法在对变量无量纲化过程中仅仅与该变量 的最大值和最小值这两个极端值有关,而与其他取值无关, 这使得该方法在改变各变量权重时过分依赖两个极端取值。 如果两个变量取值相近,其分析权重近似相同,但其中一个 原始变量数据中存在一个明显的极大值,这就会使其无量纲 化后的数据普遍低于不存在极端取值的变量,从而造成两个 变量分析权重的不同。因此,在选用此方法无量纲化时应谨 慎对待数据中的极端值。 第二大类: 标准化方法,即每一变量值与其平均值之差 除以该变量的标准差。无量纲化后各变量的平均值为0,标 准差为1,从而消除量纲和数量级的影响。 Z scores: (4) 该方法是目前多变量综合分析中使用最多的一种方法。 在原始数据呈正态分布的情况下,利用该方法进行数据无量 纲处理是较合理的。 虽然该方法在无量纲化过程中利用了所有的数据信息, 但是该方法在无量纲化后不仅使得转换后的各变量均值相 同,且标准差也相同,即无量纲化的同时还消除了各变量在 变异程度上的差异,从而转换后的各变量在聚类分析中的重 要性程度是同等看待的。而实际分析中,经常根据各变量在 不同单位间取值的差异程度大小来决定其在分析中的重要性 程度,差异程度大的其分析权重也相对较大。因此,该方法 在无量纲化过程中不能满足这一方面的要求。 第三大类: 均值化方法,即每一变量值除以该变量的平 均值。标准化后各变量的平均值都为1,标准差为原始变量 的变异系数。 Mean of 1: (5) 该方法在消除量纲和数量级影响的同时,保留了各变量 取值差异程度上的信息,差异程度越大的变量对综合分析的 影响也越大。该无量纲化方法在保留原始变量变异程度信息 时,并不是仅取决于原始变量标准差,而是原始变量的变异 系数,这也就保证了保留变量变异程度信息的同时数据的可 比性问题。 第四大类: 标准差化方法,即每一变量值除以该变量的 标准差。无量纲化后各变量的标准差都为1。 Standard deviation of 1: (6) 该方法是在标准化方法的基础上的一种变形。它与标准 化方法相同的是,无量纲化处理后各变量标准差相同,从而 转换后的各变量在聚类分析中是同等重要的,两者的差别仅 在无量纲化后各变量的均值上,标准化方法处理后各变量均 值为0,而标准差化方法处理后各变量均值为原始变量均值 与标准差的比值,即变异系数的倒数,这就会对分析产生一 些错误信息。如有分析变量中,部分变量变异系数很大,部 分变量变异系数很小,采用(6)式无量纲化处理后的数据 则使原变异系数越大的取值越小,原变异系数越小的取值越 大,从而产生错误的权重信息。如果各变量变异系数相差不 大,那么采用(6)式无量纲化处理与采用(4)式无量纲化 处理结果相类似。因此,这种无量纲化处理方法较少使用。 为了清晰的看出标准化、均值化和标准差化这三种无量纲化 处理方法对分析的影响,我们取北京、天津、上海、重庆4 个城市的工业总产值和资产负债率数据为原始资料(见表 三),分别以原始数据、(4)式无量纲化数据、(5)式无量 纲化数据和(6)式无量纲化数据做聚类分析,给出样本城 市间欧式距离平方(见表四)。 表三 2004年直辖市工业总产值和资产负债率 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 Administrator 线条 231 资料来源:《中国统计年鉴2005》 表四 不同样本组合欧式距离平方 从表三可看出,4个城市在资产负债率这一指标上取值 变化很小,其标准差为4.74,变异系数为0.0865。而在工业 总产值这一指标上取值差异很大,标准差为1157.34217,变 异系数为0.6477,说明不同城市的工业总产值差异显著。在 利用这两个指标对样本进行聚类分析时,工业总产值这一指 标更能体现样本间的差异,其分析权重应高于资产负债率指 标分析权重。 从表四数据可知,根据原始数据计算的样本间欧式距离 平方的大小排列顺序与根据(5)式无量纲化后数据计算的 样本间欧式距离平方的排列顺序一致,利用(4)式无量纲 化后数据计算的样本间欧式距离平方的排列顺序与利用(6) 式无量纲化后数据计算的样本间欧式距离平方的排列顺序一 致。我们知道利用未经标准化的原始数据分析时,由于变量 量纲和数量级的不同,工业总产值起决定性作用,而(5)式 无量纲化数据的分析结果与原始数据的分析结果一致,说明 按(5)式标准化后数据分析时工业总产值仍起重要作用,这 种无量纲化方法仅消除了量纲和数量级的影响,保留了原始 数据变异程度的信息。按(4)式无量纲化数据不仅消除了 量纲和数量级的影响,也消除了各变量变异程度的差异,将 无量纲化后的两个变量同等看待,从而使得其分析结果与 (5)式无量纲化数据的分析结果不一致。由于我们选择的距 离计算式是欧式距离平方,因此,(4)式与(6)式无量纲 化后数据计算的样本间欧式距离平方的排列顺序不仅一致, 且完全相同,说明这两种无量纲化方法在处理数据过程中都 消除了原始数据的变异程度信息,将所有变量同等看待。 综上所述,利用SPSS软件进行聚类分析时,根据不同的 无量纲化方法的特点,针对进行聚类分析的具体数据可以选 择相应的无量纲化处理方法。同时也要注意到,SPSS软件聚 类分析中提供的各种无量纲化方法都是直线型无量纲化方 法,客观实际中并不都是简单的直线型关系,还存在折线型 或曲线型关系,这时仍采用直线型无量纲化方法就会产生数 据处理误差,就必须根据数据特点采用相应的折线型无量纲 化方法或曲线型无量纲化方法。 参考文献 [1]薛薇.统计分析与SPSS的应用[M].北京:中国人民 大学出版社,2003,12:225-236. [2]叶宗裕.关于多指标综合评价中指标正向化和无量 纲化方法的选择[J].浙江统计,2003,(4):24-25. [3]张卫华,赵铭军.指标无量纲化方法对综合评价结果 可靠性的影响及其实证分析[J].统计与信息论坛,2005, (3):33-36. [4]马立平.统计数据标准化——无量纲化方法[J].北 京统计,2000,3:34-35. 作者简介 韩胜娟,女,讲师,华东交通大学经济管理学院。 S P S S ???????????????
本文档为【spss聚类分析的无量纲化方法比较】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_840270
暂无简介~
格式:pdf
大小:150KB
软件:PDF阅读器
页数:3
分类:
上传时间:2013-08-25
浏览量:71