首页 哈工大模式识别课程8主成分分析

哈工大模式识别课程8主成分分析

举报
开通vip

哈工大模式识别课程8主成分分析nullnull哈尔滨工业大学主讲人:邱剑彬 李君宝第8章 主成分分析(PCA)jbqiu@hit.edu.cn lijunbao@hit.edu.cnnull1.引言 2 主成分分析(PCA) 3 基于K-L展开式的特征提取 4.应用举例 null1.引言null【问题的提出】null【问题的提出】null【问题的提出】为什么要根据方差确定主成分?【问题的提出】为什么要根据方差确定主成分?null【问题的提出】对主成分的要求null【问题的提出】主成分分析的目的null主成分变换将三维空间的样本显示在二...

哈工大模式识别课程8主成分分析
nullnull哈尔滨工业大学主讲人:邱剑彬 李君宝第8章 主成分分析(PCA)jbqiu@hit.edu.cn lijunbao@hit.edu.cnnull1.引言 2 主成分分析(PCA) 3 基于K-L展开式的特征提取 4.应用举例 null1.引言null【问题的提出】null【问题的提出】null【问题的提出】为什么要根据方差确定主成分?【问题的提出】为什么要根据方差确定主成分?null【问题的提出】对主成分的要求null【问题的提出】主成分分析的目的null主成分变换将三维空间的样本显示在二维空间【问题的提出】举例null2.主成分分析null根据方差最大化原理,用一组新的、线性无关且相互正交的向量来表征原来数据矩阵的行(或列)。这组新向量(主成分)是原始数据向量的线性组合。 通过对原始数据的平移、尺度伸缩(减均值除方差)和坐标旋转(特征分解),得到新的坐标系(特征向量)后,用原始数据在新坐标系下的投影(点积)来替代原始变量。 一. 主成分分析的基本原理null假定有n个样本,每个样本共有p个变量,构成一个n×p阶的数据矩阵null 当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。null 定义:记x1,x2,…,xP为原变量指标,z1,z2,…,zm(m≤p)为新变量指标null系数lij的确定原则: ① zi与zj(i≠j;i,j=1,2,…,m)相互无关; ② z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者,或者说是对原始数据中尚未被z1解释的差异部分拥有最大的解释能力; …… zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP, 的所有线性组合中方差最大者。 则新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第一,第二,…,第m主成分。 null 从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2 ,…, p)在诸主成分zi(i=1,2,…,m)上的载荷 lij( i=1,2,…,m; j=1,2 ,…,p)。因此主成分分析的关键就是确定这些系数。 从数学上可以证明,它们分别是的协方差(相关)矩阵的m个较大的特征值所对应的特征向量。null(一)计算相关系数矩阵 rij(i,j=1,2,…,p)为原变量xi与xj的相关系数, rij=rji,其计算公式为 二、主成分分析的计算步骤null (二)计算特征值与特征向量 ① 解特征方程    ,求出特征值,并使其按大小顺序排列 ② 分别求出对应于特征值 的特征向量   ,要求   =1,即     ,其中 表示向量 的第j个分量。null③ 计算主成分贡献率及累计贡献率 贡献率累计贡献率 一般取累计贡献率达85%~95%的特征值 所对应的第1、第2、…、第m(m≤p)个主成分。 null ④ 计算主成分载荷     ⑤ 各主成分的得分 null关于特征值 null原始数据前的加权系数决定了新的综合变量主成分(得分)的大小和性质,通常称为主成分轴或者载荷向量(载荷轴、载荷系数)。 主成分分析的关键就是确定这些系数,这些系数构成了新的坐标系,将原始变量在新的坐标系下投影就可求得新坐标系下的变量值(主成分得分)。 主成分轴、载荷向量nullPC1=a1xi1+a2xi2+a3xi3 PC2= b1xi1+b2xi2+b3xi3 三维主成分分析示意图三. 主成分的特点三. 主成分的特点 ☆ 主成分是原变量的线性组合; ☆ 各个主成分之间互不相关; ☆ 主成分按照方差从大到小依次排列,第一主 成分对应最大的方差(特征值); ☆ 每个主成分的均值为0、其方差为协方差阵 对应的特征值; ☆ 不同的主成分轴(载荷轴)之间相互正交。主成分的特点主成分的特点☆ 如果原来有p个变量,则最多可以选取p个主成分,这p个主成分的变化可以完全反映原来全部p个变量的变化; ☆ 如果选取的主成分少于p个,则这些主成分的变化应尽可能多地反映原来全部p个变量的变化。null主成分分析的优点 ★ 它能找到表现原始数据阵最重要的变量的组合 ★ 通过表示最大的方差,能有效地直观反映样本之间的关系 ★ 能从最大的几个主成分的得分来近似反映原始的数据阵的信息null例: 有3个变量X1, X2与X3(p=3),其16次(n=16)观测值见下表: 四、主成分分析方法应用举例null 相关矩阵为: 相关阵R的特征值分别为2.077,0.919,0.004, 前两个主成分的累计贡献率为99.866%。 这说明第三个主成分所起作用非常小,可以只要两个主成分 。 Help princomp in MATLAB null3 基于K-L展开式的的特征提取null非监督情况下,没有已知类别的训练样本,可分离性指标无从定义。只 能根据知识和/或假定来进行特征选择。 通常用方差作为衡量指标,认为选择或提取总体未知样本方差越大,越 有利于将它分开。(实际上,我们无法确认方差大的特征一定有利于分类, 但至少方差过小的特征是不利于分类的。) 【非监督的特征提取】null特征提取:用映射(或变换)的方法把原始特征变换为较少的新特征 PCA (Principle Component Analysis)方法: 进行特征降维变换,不能完全地表示原有的对象,能量总会有损失。希望找到一种能量最为集中的的变换方法使损失最小。 K-L (Karhunen-Loeve)变换:最优正交线性变换,相应的特征提取方法被称为PCA方法特征提取与K-L变换nullKari Karhunen (1915–1992) was a probabilist and a mathematical statistician, of Finnish origin. His name is known to probabilists and statisticians because of the Karhunen–Loève theorem and Karhunen–Loève transform. Kari Karhunen got his doctoral thesis in 1947 from University of Helsinki, Finland. The topic of his thesis was (in German) Ueber lineare methoden in der Wahrscheinlichheitsrechnung, in English On linear methods in probability and statistics. The advisor of his thesis was the mathematician Rolf Nevanlinna. Kari Karhunen worked as a lecturer at the University of Helsinki before leaving the academic world to be employed by the insurance corporation Suomi, becoming CEO of the company in 1963. Kari Karhunen served in 1955 in the mathematics machine committee which developed the first Finnish computer ESKO. Kari KarhunennullMichel Loève (January 22, 1907 – February 17, 1979) was a French American probabilist and a mathematical statistician, of Palestinian Jewish origin. His name is known to probabilists and statisticians because of the Karhunen–Loève theoremand Karhunen–Loève transform. Michel Loève was born in Jaffa, Palestine in 1907, during the Ottoman domination there, in a Jewish family. Passed most of the childhood's years in Egypt and received there his primary and secondary education in French schools. Later, after achieving the grades of B.L. in 1931 and A.B. in 1936, he studied mathematics at the Université de Paris under Paul Lévy. and received his Docteur ès Sciences (Mathématiques) in 1941. In 1936 was employed as actuaire of the University of Lyon. Because of his Jewish origin was arrested during the German occupation of France and sent to Drancy internment camp. Having survived the Holocaust, after the liberation became between 1944–1946 chief of researches at the Institute Henri Poincaré at Paris University, then until 1948 worked at the University of London. After one term as a visiting professor at Columbia University he accepted the position of Professor of Mathematics at Berkeley. In 1955 adding the title Professor of Statistics. He is the author of one of the best known textbooks on measure-theoretic probability theory. He is memorialized via the Loève Prize created by his widow Line.Michel Loèvenullnull离散K-L变换:对向量x用 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 正交向量系uj进行线性变换,得到新的向量Y. 经过K-L变换组合,输出Y的各分量之间将具有最小的相关性.特征 提取K-L变换null用有限项估计x :该估计的均方误差:特征 提取因为uj是确定性向量,所以有离散K-L变换的均方误差null用Lagrange乘子法,可以求出满足正交条件下的ε取极值时的坐标系统:结论:以相关矩阵R的d个特征向量uj为基向量来展开x时,其截断均方误差取得最小值为:K-L变换:当取矩阵R的d个最大特征值对应的特征向量来展开x时,其截断均方误差最小。这d个特征向量组成的正交坐标系称作x所在的D维空间的d维K-L变换坐标系, x在K-L坐标系上的展开系数向量y称作x的K-L变换特征 提取求解最小均方误差正交基nullK-L变换的向量展开表示:K-L变换的矩阵表示:特征 提取K-L变换的向量表示nully的相关矩阵是对角矩阵:特征 提取K-L变换的性质nullK-L坐标系把矩阵R对角化,即通过K-L变换消除原有向量x的各分量间的相关性,从而有可能去掉那些带有较少信息的分量以达到降低特征维数的目的 特征 提取K-L变换的性质null主成分分析 ( PCA ) 主分量分析( Principle Component Analysis, PCA)就是基于K-L变换的提取特征的一种最优正交线性变换,可以有效去掉一个随机向量中各元素间的相关性。 PCA的目的:寻找能够表示采样数据的最好的投影子空间. PCA的求解:特征向量常被叫做“主分量”,每个样本被它在前几个主分量上的投影近似表示,U张成的空间称为原空间的子空间,PCA实际上就是在子空间上的投影. null 从几何意义来看,变换后的主分量空间坐标系与变换前的空间坐标系相比旋转了一个角度。而且新坐标系的坐标轴一定指向数据信息量较大的方向。以二维空间为例,假定某样本的分布呈椭圆状,那么经过旋转后,新坐标系的坐标轴一定分别指向椭圆的长半轴和短半轴方向——主分量方向,因为长半轴这一方向的信息量最大。 主成分是这个椭圆的「长轴」方向。短轴的方向和长轴垂直,是「第二个」主成分的方向。变换后的各分量,它们所包括的信息量不同,呈逐渐减少趋势。事实上,第一主分量集中了最大的信息量,常常占80%以上。第二、三主分量的信息量依次很快递减,到了第n分量,信息几乎为零。null特征 提取 PCA对于椭球状分布的样本集有很好的效果, 学习所得的主方向就是椭球的主轴方向. PCA 是一种非监督的算法, 能找到很好地代表所有样本的方向, 但这个方向对于分类未必是最有利的null4 应用举例null 人脸识别就是将已检测到的待识别人脸与数据库中的已知人脸进行比较匹配,得出相关信息,来鉴别该人是谁。这一过程的核心是选择恰当的人脸表征方式与匹配策略,即选择合适的人脸模式的特征,根据所提取的特征进行匹配。 人脸图像所包含的模式特征十分丰富,它不仅包括一些能直观感觉到的特征,如肤色、发色等颜色特征,脸的轮廓等轮廓特征,用到的更多的是不能感觉,只能通过变换等处理之后才表现出来的特征,如特征脸、小波特征等变换域特征,均值、方差等 模板 个人简介word模板免费下载关于员工迟到处罚通告模板康奈尔office模板下载康奈尔 笔记本 模板 下载软件方案模板免费下载 特征。 人脸特征表述 null【人脸识别】null【人脸识别】null【人脸识别】null【人脸识别】null基于PCA构建特征脸空间是对图像进行K-L变换,以去除样本间的相关性,然后根据特征值的大小选择特征向量。 这种方法首先将人脸图像映射为高维空间的向量,然后应用基于统计的离散K-L变换方法,构造一个各分量互不相关的特征空间,即特征脸空间,再将人脸图像在高维空间中的向量映射到特征脸空间,得到特征系数。 PCA构建特征脸空间null ORL标准人脸库由40人,每人10幅112×92图像组成。这些图像是拍摄于不同时期的;人的脸部表情和脸部细节有着不同程度的变化,比如,笑或不笑,眼睛或睁或闭,戴或不戴眼镜;人脸姿态也有相当程度的变化,深度旋转和平面旋转可达20度;人脸的尺度也有多达10%的变化。 ORL人脸库(英国剑桥大学) null特征值与特征图像 特征值ORL 20人 10幅× 特征脸空间null【人脸识别】null【人脸识别】null本章结束
本文档为【哈工大模式识别课程8主成分分析】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_261794
暂无简介~
格式:ppt
大小:5MB
软件:PowerPoint
页数:0
分类:工学
上传时间:2012-09-13
浏览量:45