首页 补充材料一:主成分分析

补充材料一:主成分分析

举报
开通vip

补充材料一:主成分分析补充材料一:主成分分析 补充材料一:主成分分析 1.1引言 多元统计分析处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性。但在实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。 主成分分析(principal components analysis,简称PCA)也称主分量分析,是由Hotelling于1933年首先提出的。由于多个...

补充材料一:主成分分析
补充材料一:主成分分析 补充材料一:主成分分析 1.1引言 多元统计分析处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性。但在实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。 主成分分析(principal components analysis,简称PCA)也称主分量分析,是由Hotelling于1933年首先提出的。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,……,直到所提取的信息与原指标相差不多时为止。这就是主成分分析的思想。一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,可以得到一个更低维的随机向量;因此,通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。 我们知道,当一个变量只取一个数据时,这个变量(数据)提供的信息量是非常有限的,当这个变量取一系列不同数据时,我们可以从中读出最大值、最小值、平均数等信息。变量的变异性越大,说明它对各种场景的“遍历性”越强,提供的信息就更加充分,信息量就越大。主成分分析中的信息,就是指标的变异性,用标准差或方差表示它。在多变量的情况下,变量的变异性用协方差矩阵来表示。 1.2主成分的几何意义及数学推导 设 为m维随机向量,且二阶矩存在,称 为 的期望向量,称矩阵 为 的协方差矩阵,其元素 为 与 的协方差, 为 的方差。由概率论的知识可知协方差矩阵 是一个半正定的对称矩阵。下面的引理来自于线性代数: 引理1:设 为一个 阶对称阵,则 (1) 必有 个实的特征值 ; (2) 的不同特征值对应的特征向量必正交; (3) 必可对角化,且存在正交阵 ,使得 其中 , 的 个列向量恰为 的 个正交的特征向量。 为了说清楚主成分分析的思想 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 ,我们先回顾一下求二次型的标准型问题。设 为一个 阶二次型,其中 为一个 阶对称阵,如果做正交变换 ,那么 特别地,当 ,且 为正定阵时,方程 表示 平面上的一个椭圆,只不过,主轴与坐标轴不平行,但在新坐标轴 下,椭圆方程变成了 ,主轴与坐标轴是平行的,如下图: 图1 主成分的几何意义 正交变换 ,在几何上就是作一个坐标旋转或者反射。由上图可知,同样一个椭 圆,在不同的坐标系下表达方式是不一样的,在 下要简单得多,也便于研究, 与 就是椭圆的两个主轴,且均为 与 的线性组合。 以上我们只是对 阶二次型的一个特例进行了简单的分析,一般地对 阶二次型可以进 行同样的分析,由线性代数的知识可知以下结论: 引理2:设 为一个 阶对称阵, 为对应的二次型,利用引理1中的正交阵 做正交变换 ,则有 其中 为 的 个特征值; ,且 ; 由前知,m维随机向量 的协方差矩阵 为对称半正定的,如果设 为 的特征值,那么由引理2知存在正交阵 ,使得 ,此时令m维随机向量 ,可得 的协方差矩阵为 由此可知本节主要结论如下: 定理1:设 为m维随机向量,且二阶矩存在,则必存在 的线性组合 ; 使得 (1) , 为相互正交的单位长向量; (2) 与 互不相关( ),且 ; (3) ; (4) 与 的相关系数为 ,并称之为因子负(载)荷量,且满足 。 今后,我们称 为第一主成分,称 为第二主成分,依此类推。主成分分析把 个原始变量 的总方差分解成了 个互不相关的变量 的方差之和 。主成分分析的目的是减少变量的个数,所以一般不会使用所有 个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们称 为第 个主成分 的贡献率。第一主成分的贡献率最大,这表明 综合原始变量 的能力最强,而 的综合能力依次递减。若只取前 个主成分,则称 为主成分 的累计贡献率,累计贡献率表明 综合 的能力。通常取 ,使得累计贡献率达到一个较高的百分数(如85%以上)。 1.3实际应用中主成分分析的出发点及综合评价 我们前面讨论的主成分计算是从协方差矩阵出发的,其结果受变量单位的影响。不同的变量往往有不同的单位,对同一变量单位的改变会产生不同的主成分,主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。为使主成分分析能够均等地对待每一个原始变量,消除由于单位的不同可能带来的影响,我们常常将各原始变量作标准化处理,即令 显然, 的协方差矩阵就是 的相关系数矩阵 。同样地相关系数矩阵 也是一个半正定的对称阵,于是上述对协方差阵所进行的主成分分析可以一模一样地对相关系数矩阵进行。但是,从相关阵求得的主成分与从协差阵求得的主成分一般情况是不相同的。实际表明,这种差异有时很大。我们认为,如果各指标之间的数量级相差悬殊,特别是各指标有不同的物理量纲的话,较为合理的做法是使用相关系数矩阵进行主成分分析。对于研究经济问题所涉及的变量单位大都不统一,采用相关系数矩阵后,可以看作是用标准化的数据做分析,这样使得主成分有现实经济意义,不仅便于剖析实际问题,又可以避免突出数值大的变量。 同时,也应该注意到,在实际应用中,总体 的分布往往都是未知的,其协方差矩阵与相关系数矩阵 更是无法得知,此时,我们只能利用样本数据来估计 的协方差矩阵与相关系数矩阵。也就是说,在真正做主成分分析时,我们是用样本协方差阵与样本相关系数阵来代替总体 的协方差矩阵与相关系数矩阵进行分析,样本协方差阵与样本相关系数阵的求法如下: 设 为 个随机变量,每个 都有 个样本观测值 , ,我们称 与 分别为 与 的样本协方差与样本相关系数,而称 与 分别为 的样本协方差阵与样本相关系数阵。 综上,主成分分析的具体步骤可以归纳为: 1.​ 将原始数据标准化; 2.​ 建立变量的样本相关系数阵 ; 3.​ 求 的特征根为 ,相应的特征向量为 ; 4.​ 由累积方差贡献率确定主成分的个数( ),并写出主成分为 , 。 1.4主成分分析实例 主成分分析的一个主要用处是用来对一些部门或单位进行综合排名。 但人们在对这些部门或单位进行综合评价时都会遇到如何选择评价指标体系和如何对这些指标进行综合的困难。一般的作法是,在确定评价指标体系后,再对各指标进行加权从而得到综合分值。但是,如何对指标加权是一项具有挑战性的工作。指标加权的依据是指标的重要性,指标在评价中的重要性判断难免带有一定的主观性,这影响了综合评价的客观性和准确性。由于主成分分析能从选定的指标体系中归纳出大部分信息,根据主成分提供的信息进行综合评价,不失为一个可行的选择。这个方法是根据指标间的相对重要性进行客观加权,可以避免综合评价者的主观影响,在实际应用中越来越受到人们的重视。 对主成分进行加权综合。我们利用主成分进行综合评价时,主要是将原有的信息进行综合,因此,要充分的利用原始变量提供的信息。将主成分的权数根据它们的方差贡献率来确定,因为方差贡献率反映了各个主成分的信息含量多少。 设 是所求出的m个主成分,它们的特征根分别是 ,定义权 记为 ,由 ,构造综合评价 函数 excel方差函数excelsd函数已知函数     2 f x m x mx m      2 1 4 2拉格朗日函数pdf函数公式下载 为 这里我们应该注意,从本质上说综合评价函数是对原始指标的线性综合,从计算主成分到对之加权,经过两次线性运算后得到综合评价函数。 例1:表1是某市工业部门13个行业的8项重要经济指标的数据,这8项经济指标分别是:X1:年末固定资产净值,单位:万元; X2:职工人数据,单位:人; X3:工业总产值,单位:万元; X4:全员劳动生产率,单位:元/人年; X5:百元固定资产原值实现产值,单位:元; X6:资金利税率,单位:%; X7:标准燃料消费量,单位:吨; X8:能源利用效果,单位:万元/吨。 表1 某市工业部门13个行业8项指标 X1 X2 X3 X4 X5 X6 X7 X8 冶金 90342 52455 101091 19272 82 16.1 197435 0.172 电力 4903 1973 2035 10313 34.2 7.1 592077 0.003 煤炭 6735 21139 3767 1780 36.1 8.2 726396 0.003 化学 49454 36241 81557 22504 98.1 25.9 348226 0.985 机器 139190 203505 215898 10609 93.2 12.6 139572 0.628 建材 12215 16219 10351 6382 62.5 8.7 145818 0.066 森工 2372 6572 8103 12329 184.4 22.2 20921 0.152 食品 11062 23078 54935 23804 370.4 41 65486 0.263 纺织 17111 23907 52108 21796 221.5 21.5 63806 0.276 缝纫 1206 3930 6126 15586 330.4 29.5 1840 0.437 皮革 2150 5704 6200 10870 184.2 12 8913 0.274 造纸 5251 6155 10383 16875 146.4 27.5 78796 0.151 文教 14341 13203 19396 14691 94.6 17.8 6354 1.574 我们要考虑的是:如何从这些经济指标出发,对各工业部门进行综合评价与排序? 我们先计算这些指标的主成分,然后通过主成分的大小进行排序。表2和表3分别是特征根(累计贡献率)和特征向量的信息。利用主成分得分进行综合评价时,从特征向量我们可以写出所有8个主成分的具体形式: …… 表2 特征根和累计贡献率 序号 特征根 方差贡献率% 累计贡献率% 1 3.1049 38.8114 38.8114 2 2.8974 36.2180 75.0294 3 0.9302 11.6277 86.6571 4 0.6421 8.0265 94.6836 5 0.3041 3.8011 98.4847 6 0.0866 1.0825 99.5672 7 0.0322 0.4023 99.9695 8 0.0024 0.0305 100.0000 表3 特征向量 特征向量1 特征向量2 特征向量3 特征向量4 特征向量5 特征向量6 特征向量7 特征向量8 1 0.477 0.296 0.104 0.045 -0.184 -0.066 0.758 0.245 2 0.473 0.278 0.163 -0.174 0.305 -0.048 -0.518 0.527 3 0.424 0.378 0.156 0.059 0.017 0.099 -0.174 -0.781 4 -0.213 0.451 -0.009 0.516 -0.539 0.288 -0.249 0.220 5 -0.388 0.331 0.321 -0.199 0.450 0.582 0.233 0.031 6 -0.352 0.403 0.145 0.279 0.317 -0.714 0.056 -0.042 7 0.215 -0.377 0.140 0.758 0.418 0.194 0.053 0.041 8 0.055 0.273 -0.891 0.072 0.322 0.122 0.067 -0.003 表4 各行业主成分得分及排序 行业 Y1 Y2 …… Y8 综合得分 排序 冶金 1.475 0.759 …… 0.004 0.911 2 电力 0.498 -2.592 …… 0.067 -0.654 12 煤炭 1.056 -3.226 …… -0.024 -0.629 11 化学 0.460 1.184 …… -0.052 0.618 3 机器 4.528 2.262 …… 0.023 2.589 1 建材 0.330 -1.774 …… -0.067 -0.602 10 森工 -1.103 -0.318 …… -0.035 -0.573 9 食品 -2.195 2.244 …… -0.052 0.155 4 纺织 -0.841 0.896 …… -0.001 0.033 5 缝纫 -2.032 0.825 …… 0.073 -0.476 8 皮革 -0.713 -0.756 …… -0.030 -0.659 13 造纸 -1.201 0.030 …… 0.079 -0.437 7 文教 -0.263 0.464 …… 0.015 -0.276 6 我们以特征根为权,对8个主成分进行加权综合,得出各工业部门的综合得分,具体数据见表4。综合得分的计算公式是: 根据上式可计算出各工业部门的综合得分,并可据此排序。从上表可以看出,机器行业在该 地区的综合评价排在第一,原始数据也反映出机器行业存在明显的规模优势,另外从前两个主成分得分上看,该行业也排在第一位,同样存在效益优势;而排在最后三位的分别是皮革行业、电力行业和煤炭行业。 例2:对于某区域地貌-水文系统,其57个流域盆地的九项地理要素: x1为流域盆地总高度(m), x2为流域盆地山口的海拔高度(m), x3为流域盆地周长(m),x4为河道总长度(km), x5为河道总数, x6为平均分叉率, x7为河谷最大坡度(度), x8为河源数 x9为流域盆地面积(km2) 表5  某57个流域盆地地理要素数据 张超先生(1984)曾用这些地理要素的原始数据对该区域地貌-水文系统作了主成分分析。下面,我们将其作为主成分分析方法在地理学研究中的一个应用实例介绍给读者,以供参考。 表6相关系数矩阵 (1)首先将表5中的原始数据作标准化处理,由公式(4)计算得相关系数矩阵(见表6)。 (2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见表7)。由表7可知,第一,第二,第三主成分的累计贡献率已高达86.5%,故只需求出第一,第二,第三主成分z1,z2,z3即可。 表7  特征值及主成分贡献率 (3)对于特征值λ1=5.043,λ2=1.746,λ3=0.997分别求出其特征向量e1,e2,e3,并计算各变量x1,x2,……,x9在各主成分上的载荷得到主成分载荷矩阵(见表8)。 表8  主成分载荷矩阵 从表8可以看出,第一主成分z1与x1,x3,x4,x5,x8,x9有较大的正相关,这是由于这六个地理要素与流域盆地的规模有关,因此第一主成分可以被认为是流域盆地规模的代表:第二主成分z2与x2有较大的正相关,与x7有较大的负相关,而这两个地理要素是与流域切割程度有关的,因此第二主成分可以被认为是流域侵蚀状况的代表;第三主成分z3与x6有较大的正相关,而地理要素x6是流域比较独立的特性——河系形态的表征,因此,第三主成成可以被认为是代表河系形态的主成分。 以上分析结果表明,根据主成分载荷,该区域地貌-水文系统的九项地理要素可以被归为三类,即流域盆地的规模,流域侵蚀状况和流域河系形态。如果选取其中相关系数绝对值最大者作为代表,则流域面积,流域盆地出口的海拔高度和分叉率可作为这三类地理要素的代表,利用这三个要素代替原来九个要素进行区域地貌-水文系统分析,可以使问题大大地简化。 练习: 以下是我国2005年第1、2季度分地区城镇居民家庭收支基本情况。用主成分分析对各地区进行排序。 分地区城镇居民家庭收支基本情况 地区 平均每户人口(人) 平均每户就业人口(人) 平均每一就业者负担人数(人) 平均每人实际可支配收入(元) 平均每人消费性支出(元) 北京 2.9 1.6 1.8 8845.1 6249.3 天津 2.9 1.4 2 6189.1 4549.1 河北 2.9 1.5 1.9 4582.9 3317.3 山西 3 1.5 2 4359.7 3066.8 内蒙 2.9 1.5 1.9 4712.1 3557.8 辽宁 2.9 1.4 2 4501.2 3530.7 吉林 3 1.5 1.9 4293.7 3271.5 黑龙江 2.8 1.3 2.2 3902.3 2858.7 上海 3 1.6 1.9 9656.5 6623.3 江苏 2.9 1.4 2.1 6371.1 4222.1 浙江 2.8 1.4 1.9 8921.2 6127.5 安徽 3 1.6 1.9 4311.6 3121.4 福建 3.1 1.6 1.9 6471.8 4292.3 江西 2.9 1.5 1.9 4369.7 2945.1 山东 2.9 1.7 1.7 5357.7 3517.6 湖南 3 1.5 2 4558.5 3338.1 湖北 2.9 1.4 2.1 5010.7 3616.4 广东 3.3 1.7 1.9 7828.8 5941.7 广西 3 1.5 2 4876.8 3508.5 海南 3.6 1.6 2.3 4323 2975.4 重庆 3.1 1.6 1.9 5283.8 4187.8 四川 2.9 1.4 2 4333.5 3326.7 贵州 3.1 1.4 2.1 4177.4 3066.3 云南 3 1.3 2.2 4619.8 3415.4 西藏 3.4 1.7 2 4668.8 4467.1 陕西 3 1.5 2 4342.7 3186.6 甘肃 2.9 1.5 1.9 4031.8 3113.2 青海 3 1.3 2.3 3971.8 3070.3 宁夏 2.9 1.3 2.2 4078.3 3133.7 新疆 3 1.5 2.1 4018.4 3015.1
本文档为【补充材料一:主成分分析】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_615466
暂无简介~
格式:doc
大小:494KB
软件:Word
页数:0
分类:工学
上传时间:2011-06-11
浏览量:31