局部保持多投影向量Fisher判别分析算法

局部保持多投影向量Fisher判别分析算法局部保持多投影向量Fisher判别分析算法第 33 卷第 5 期计算机学报Vol . 33 No . 5 2010 年 5 月 May 2010C H IN ES E J O U RN AL O F CO M PU T ER S 局部保持多投影向量Fisher 判别分析算法 )) ))1 1,2 3 张召业宁业巧林) 1 ) ( 210037南京南京林业大学信息科学技术学院2) ( )山东大学计算机科学与技术学院济南 250100 3) ( ) 南京理工大学计算机科学与技术学院南京 210094 ...

局部保持多投影向量Fisher判别分析算法第 33 卷第 5 期计算机学报Vol . 33 No . 5 2010 年 5 月 May 2010C H IN ES E J O U RN AL O F CO M PU T ER S 局部保持多投影向量Fisher 判别分析算法 )) ))1 1,2 3 张召业宁业巧林) 1 ) ( 210037南京南京林业大学信息科学技术学院2) ( )山东大学计算机科学与技术学院济南 250100 3) ( ) 南京理工大学计算机科学与技术学院南京 210094 摘要特征选择是在损失较少信息的情况下处理高维图像数据的关键技术 ,是高维数据预处理的重要步骤. 通 ( ) ( 过引入 Fi sher 判别分析 Fi sher Di scriminant A nalysi s , FDA 和典型相关分析 Ca no nical Co r relatio n A nalysi s , ) CCA的思想 ,采用以样本的类标号形式给出的先验信息 ,考虑样本数据的局部性 ,提出了一种监督的基于 Fi sher 判 (别信息的局部保持多投影向量分析方法 Localit y Pre serving M ulti2p rojectio n Vecto r Fi sher Di scrimi na nt A nalysi s , ) ( ) ( ) L PMV F. 通过定义新准则 ,L PMV F 具有以下优点 : 1便于计算 ,可有效避免奇异性 ; 2借助标准核映射 ,可快 ( ) 速将 L PMV F 推广到非线性的特征空间 ; 3与 CCA 算法类似 ,L PMV F 最终得到一对投影变换 ,可有效嵌入样本 ( ) 数据 ,可将原始数据投影成一系列“有用的”特征形式 ,并使数据的投影在嵌入空间中更具可分离性 ; 4与局部化 () 的 Fi sher 判别分析 Local Fi sher Di scrimina nt A nalysi s ,简称 L FDA相比 ,L PMV F 也能够有效保持数据样本间的 () 局部近邻关系 ; 5在大多数情况下 ,该文算法的学习能力甚至优于经典的 FDA 、KFD 和 L FDA 算法. 在几个标准数据集上的实验结果表明 ,L PMV F 及其非线性的推广算法能够提取出描述能力更强的特征信息 ,可有效利用类标号监督信息提高分类性能. 关键词局部保持 ;多投影向量 ;特征选择 ;分类 ;判别分析中图法分类号 T P18DOI 号 : 10 . 3724/ SP. J . 1016 . 2010 . 00865 Local ity Preserving Mult i2Project ion Vector Fisher Discriminant Anal ysis )) ))11,23Z H A N G Zhao YE Ni ng YE Qiao2L i n 1) ( )S c hool o f I n f or m at i on S cience an d T ec h nol o g y , N an j i n g Forest r y U ni ve rsi t y , N an j i n g 210037 ) 2( )S c hool o f Com p ute r S cience an d T ec hnol o g y , S h an d on g U ni ve rsi t y , J i nan 250100 3) ( )S c hool o f Com p ut e r S cience an d T ec h nol o g y , N an j i n g U ni ve rsi t y o f S cience an d T ech nol o g y , N an j i n g 210094 Feat ure selectio n ha s bee n a n i mpo r t a nt p rep roce ssi ng st ep i n hi gh2di me n sio nal i ma ge Abstract dat a a nal ysi s wit ho ut lo si ng much i nt ri n sic i nfo r matio n . By i nt ro duci ng t he i dea s of Fi she r Di s2 ( ) ( ) cri mi na nt A naly si s FDA a nd Ca no nical Co r relatio n A nal ysi s CCA , t he p ap er di scu sse s t he sup e r vi sed f eat ure selectio n p ro ble m w here sa mp le s a re acco mp a nie d wit h cla ss la bel s a nd p ropo2 se s a new Localit y Pre ser vi ng M ulti2p rojectio n Vecto r Fi she r Di scri mi na nt A naly si s al go rit h m calle d L PMV F . L PMV F t a ke s t he local st r uct ure of t he o ri gi nal dat a i nto acco unt , so t he multi2 mo dal sa mp le s dat a ca n be e mbedde d app rop riat ely . B y defi ni ng t he new guideli ne s , L PM V F ha s ( ) t he follo wi ng a dva nt a ge s : 1L PMV F ca n be ea sil y co mp ut e d a nd ca n a voi d t he si ngula r p ro b2 () le ms ; 2L PMV F ca n be ea sil y e xt e nded to no n2li nea r f eat ure selectio n sce na rio s by e mp lo yi ng () t he ker nel t rick ; 3Si mila r to CCA , L PMV F at t e mp t s to fi nd t wo set s of ba si s vecto r s fo r t wo multiva riat e dat a set s of diff ere nt cla sse s , o ne fo r each cla ss , w hic h ca n p roject t he o ri gi nal dat a ( ) 收稿日期 : 2009207220 ; 最终修改稿收到日期 : 2010201217 . 本课题得到江苏省自然科学基金 B K2009393 、国家自然科学基金 ( ) ( ) ( ) 30671639、江苏省高校科技创新计划项目 164070265 、南京林业大学科技创新项目 2009106 、2009 年江苏省研究生创新基金( ) CX09 S_013 Z资助. 张召 ,男 , 1984 年生 , 硕士研究生 , 主要研究方向为机器学习、智能信息处理、模式识别. E2mail : zzha ng618 @ gmail . co m. 业宁 ,男 ,1967 年生 ,博士 ,副教授 ,主要研究方向为模式识别、数据挖掘、生物信息学. 业巧林 ,男 , 1982 年生 ,博士研究生 , 主要研究方向为数据挖掘、机器学习、模式识别. o nto a set of mo re u sef ul f eat ure s i n t he fo und e mbe ddi ng sp ace , w hich wo ul d be be nefit to cla ssi2 () () ficatio n a nd p at t er n reco gnitio n ; 4The sa me wit h Local Fi sher Di scri mi na nt A nal ysi s L FDA, ( ) L PMV F ca n p re ser ve t he local relatio n ship s bet wee n t he dat a poi nt s ; 5 In mo st ca se s , t he lea r ni ng p e rfo r ma nce of t he L PMV F met ho d i s sup e rio r to t ho se of t he cla ssical FDA , KFD a nd L FDA al go rit h m s. The a ut ho r s verif y t he f ea si bilit y a nd eff ective ne ss of L PMV F by e xt e n sive vi2 sualizatio n a nd cla ssificatio n t a sk s. Exp eri me nt al re sult s o n t he be nch ma r k dat a set s sho w t hat L PMV F a nd it s no nli nea r e xt e nde d al go rit h m ca n e xt ract t he goo d f eat ure s a nd eff ectivel y i m2 p ro ve t he acc uracy by i nt ro duci ng t he cla ss la bel s a s p rio ri k no wle dge . localit y p re ser vatio n ; multi2p rojectio n vecto r ; f eat ure selectio n ; cla ssificatio n ; di s2 Key words cri mi na nt a naly si s 和 L P P 算法的良好特性 , 提出了局部化的监督型 (Fisher 判别分析Local Fisher Discrimina nt A nalysis , 1 引言[ 8 ,10 ] ) L FDA算法,用于特征选择. 实验证明 L FDA 算越来越多的研究和应用领域需要处理较高维的法能够有效地嵌入多模态的样本数据 ,并使属于不图像数据 ,而要对高维的数据进行统计分析和可视同类别的样本在构造出的特征空间内更具可分离化研究 ,必须进行降维. 降维的目的是将高维的数据性. L FDA 与 FDA 和 KFD 类似 , 其目标都是找到嵌入到一个较低维的特征空间 ,同时保持样本的内一组最优的投影变换 ,使得投影在该变换上的不同 ( 部结构特征. 线性 Fi she r 判别分析 L i nea r Fi sher ( 类别的样本更具可分离性. 典型相关分析 Ca no nical [ 1 ] [ 11 ] ) Di scri mi na nt A nal y si s , FDA 和核 Fi sher 判别分 ) Co r relatio n A nal y si s , CCA 侧重于多模态的识 [ 2 ] ( ) 析 Ker nel Fi sher Di scri mi na nt A nal ysi s , KFD 别 ,即利用互补原理 ,最大化不同模态数据之间的互在模式识别中的特征选择和数据可视化研究中得到信息相关 ,减少数据之间的不确定性 ,从而达到增强 [ 326 ] 了广泛的应用和推广. FDA 借助方差分析的思识别能力的目的 ,近年来 ,算法 CCA 已经被成功地 [ 12 ] [ 13 ] 想 ,选择一组最优的投影向量 ,使得投影到低维空间应用于人脸表情识别、图像处理和模式识 [ 14 ] 的样本数据具有较好的可分离性 ,同时使在投影空别等研究和应用领域. 不同于 FDA 及其变型的间中的不同类样本间的差异尽可能大 ,是一种单模是 ,对于给定的两个属于不同类别的多变量数据集态的分析方法. 所谓单模态识别是指利用从单一信 X 和 Y , CCA 的目标是求得一对基向量 , 使两个数息渠道获得的观察样本进行识别的技术. FDA 算法据集之间的相关最大 , 然而 CCA 是一种无监督的有一个明显的局限性是只有当属于不同类的样本分学习方法 ,只关注成对样本之间的相关性 ,并将相关布满足同方差时得到的解才是最优的. KFD 是线性作为不同空间中样本之间的相似性度量标准 ,没有 Fi sher 判别分析的非线性推广算法 ,考虑将样本数对样本的类信息加以利用 ,而在很多实际应用研究据映射到一个更高维的核特征空间 ,在核空间内进中 ,得到与数据样本相关的一些先验知识是至关重行 Fi sher 线性判别 ,隐含地实现原输入空间的非线要的 ,如类标号信息和约束信息等. 性判别 ,找到具有线性决策边界的基于核的分类规本文以样本的类标号作为先验信息 ,考虑样本则 , FDA 和 KFD 都是经实验验证过的有效方法. 数据的局部性 ,提出了一种监督的基于 Fi she r 信息为了更好地嵌入样本数据 ,保持数据的局部特 ( 的局部保持多投影向量判别分析算法 Localit y 征是十分重要的 ,这使得基于局部保持的特征选择 Pre ser vi ng M ulti2p rojectio n Vecto r Fi sher Di scri m2 [ 7210 ] 方法成为近年来机器学习和智能信息挖掘领域 ) i na nt A nal ysi s ,L PMV F,用于特征选择 ,可有效弥 (中的热点问题. 局部保持投影算法 Localit y Pre ser2 补上述算法中存在的不足. [ 7 ] ) vi ng Projectio n s ,L P P能有效保持数据的局部特本文第 2 节给出 L PMV F 算法的详细推导过程征 ,使位于原始输入空间中距离较近的样本点在嵌和特性分析 , 并借助核映射 , 将 L PMV F 推广到非入特征空间内仍较为紧凑 ,并可以有效地嵌入多模线性的特征空间. 通过引入样本数据的子模式结 [ 15217 ] 态数据. Sugiya ma 考虑数据的局部性 ,结合了 FDA 构,构造子模式特征空间 ,提出了另一种子模式 867 5 期张召等 : 局部保持多投影向量 Fi sher 判别分析算法 m m 212 型非线性算法 ;第 3 节通过可视化和分类实验对提 ( )b 1 T 2 T 1 Q M x Tx - Tx x i , ji j ?? 出的算法进行性能测试 ,并对实验结果进行分析 ;最 2 m1 i = 1 j = 1 T 后对本文的工作进行总结 , 并展望下一步的研究 T( ) su bject to 1 T= I x x 目标. ( ( ) ) g = 1 , 2 , , d d Φ n上的即投影到各个分量 Txg 第 1 类样本尽可能地离该类数据样本在向量 Tx 上g 2 局部保持多投影向量 Fisher 判别的投影均值近 , 而投影到 Tx 上的另一类样本应离g ( ) 该投影均值尽可能地远. 模型 1 中的协调参数 P 分析算法 ( ) 和 Q 分别被用于平衡模型 1 中后两项的贡献程 21 1 线性 L PM VF 度 , 直觉地 , 属于同一类别的数据样本与该类样本在本节提出了一种线性的基于 Fi she r 信息的局 T上的投影均值之间的距离应尽可能地接近期望的 x [ 20 ] ( ) 部保持多投影向量判别分析方法 L PMV F, 用于尺度, 经验地设置 P = 1 和 Q > 1 , 且该模型可有 n 样本特征的选择和提取工作. 在 n 维的输入空间效避免 Fi she r 判别过程中可能产生的奇异性问题. 1 2 1 1 )( ( w)b ( ) ( 上 ,对给定的 m 个样本 x = x, x= x, x,, 1 2 特征矩阵 M 和 M 被用于实现 L PMV F 算法的i , j i , j 1 2 2 2 ) x, x, x,, xm, 该集合由第 1 类样本组成的m1 2 局部保持特性. 假设 G 表示一个具有 m 个节点的1 2 12 1 2 n ×m维的矩阵 A 和第 2 类样本组成的 n ×m维的1 2 ( ) ( ) , 若样本 xx和 xx是局部近邻 , 则在二者图 i i j j 矩阵 B 构成 , 其中 m1 和 m2 分别为两类样本的数目 , 之间设置一条边作为权重 , 常用的局部近邻定义方且满足 m= m. 对给定的两个属于不同类别的多 1 2 [ 7 , 21 ] 1 2 ( ) ( ) 法有如下两种策略: 1 若样本xx和i i 1 2 ( 变量数据集 x和 x, 类似于典型相关分析Ca no nical 1 2 [ 11 , 18 ] ( ) ε xx间的距离尺度小于, 则认为二者是局部近邻j j ) Co r relatio n A nal y si s , CCA 的设计思想 , ( ) ε 关系 , 其中?R 是一个预先设定的阈值 ; 2若样L PMV F 的目标是通过求解两个简单的标准特征值 2 1 2 1 2 1 1 ( ) ( ) ( ) 本 xx是 xx的 K 近邻 , 则样本 xx和 xi i j j i i j122 , 使问题找到一对有效的投影变换 T和 TL PMV F L PMV F ( ) x是局部近邻. 根据局部近邻的概念 , 本文中由规j 121 投影到变换 T或 T上的第一类数据样本离x L PMV F L PMV F ( ) 则 2定义不同类别内部样本间的权重系数 Ai j 和12上的投影均值尽可能地 2 该类样本在 T或 TL PMV F L PMV F x 2 A i j , 其中 ‖?‖为 L 22范数的平方.12 近 , 而投影到 T或 T上的另一类数据样本L PMV F L PMV F l x= A l i j 离该投影均值尽可能地远. 进而通过投影变换 r i =l l 2 l l ) ( ‖xi -e xp - xj ‖ / m l , 若 xi 是 x j 的近邻 , l = 1 , 2l T l l ( ) ( ) Tx i l = 1 , 2得到样本集 x 的 d ×m l d Φ nL PMV F否则 0 , l 维的低维描述 r , 实现降维 , 可使得低维变换后的具( )2 有不同类标号信息的数据之间更具可分离性 , 本文 ( ) 规则 2中的参数 m 为第 l 类样本的数量 , 被l 中记 l 为类标号. 1 2 x x T 1 ( ) 用于平衡权矩阵 Ai j 和 A i j . 事实上 , 规则 2体现了注意到 Tx意味着利用变换 T能将输入模式x x 1 [ 19 ] 数据样本点与其周围的样本点之间的局部近邻关 x投影成一系列更有用的特征集合, 理想地 , 那1 2 1 2 T 系 , 也就是说 , 若 ‖x-- x‖和 ‖xx‖的范数越i j ij 个特征集合应该尽可能地紧凑 , 即要求矩阵 TT或x x 1 2 x x 1 1 T , 则权重系数 Ai j 和 A i j 越大 , 反之 , 若 ‖xi - xj ‖小 T具有较小的秩 , 并希望 TT的秩等于 T的秩. 目x x x x 1 2 T T 2 x x 2 Λ 标是寻找到一个关于 TT的特征分解 VV , 即矩x x x‖的范数越大 , 则权重 A和 A 越小 ,和 ‖x-j i j i j i lΛ x阵 T的秩等于 ‖‖, 但直接对零范数进行最小化x 0 ( ) 且 Ai j l = 1 , 2 为对称矩阵. 若令对角矩阵 R11 = ( ) 1 1 2 2 2 1 处理是不大实际的 , 所以在式 1中的优化问题中 x x x x x x A A = R, A A , R= A A 和 R=i j i j 12 i j i j 22 i j i j 21 ???() i i i Λ 利用欧几里德范数 L 22范数进行近似 , 即 ‖‖=2 ( )( )w b 1 ( ) 则问题 1中的特征矩阵 M和 M 可表示为类似i , j , l i , j ‖Tx ‖2 . 则 L PMV F 的第一个投影变换矩阵 T=L PMV F ( ) 于文献[ 7 28 , 10 ]中的定义准则 , 如规则 3所示 , 其 , TT, T,可通过求解如下的模型得到 , 其xxx d1 2 ( )w 中 , M 表示对应第 l类样本的类内局部特征i , j , l 中 I 为单位矩阵. 矩阵.1 1 2 l l T= a r g mi n ‖Tx ‖ +L PMV F ( )w x x d ×m 2 M= R- A A , l = 1 , 2 , 1 l l l T? x ( )3 2 1 m m ( )( ) 1x x b bT 12 ) ( = R-A A = M M 21 ( )1 1 P w T T 1 M Tx x - Tx x - i , j , 1i j ?? m 2 1 j = 1 i = 1 定理 1 .算法 L PMV F 的第一个投影变换矩 12 2 2 ( ) ) λλ λ阵 T L PMV F 可通过求解矩阵 I + PA` - Q B`的前 d 个1 2 d Q D的前 d 个较小的特征值ΕΕ`Ε所对应最小的特征值对应的特征向量得到.的特征向量 , 而这些特征向量则构成了第二个投影 22( ) 证明.为了便于计算 , 将问题 1中的优化模变换 T的各个分量. 变换 T的计算过程和L PMV F L PMV F 1 型化简为下列形式 : 求解 T 的过程相似 , 这里不再给出详细的过程.L PMV F 1 P Q 1 2 T T 实验中的最优特征数量 d 的值不是固定的 , 而是与 T= a r g mi n ‖Tx ‖ + Tx A Tx - Tx B Tx``L PMV F d ×m2 2 2 1 T? x 每个数据集有着直接的关系 , 本文将通过在不同的 T su bject to TT= I( )x 4 x 数据集上的仿真实验确定最优的投影维数. 其中 , 矩阵 A 和 B 满足 : `` 21 2 基于核空间的非线性 KL PM VFmm m 111T 上述内容都只是涉及到线性的 L PMV F 算法 ,本 ( )w 1 1 1 1 1 1 x - x x - x A` = M ( ) 5 i ji ji , j , 1 ???[ 22 ] mm1 1 i = 1 1 j = 1 j = 节中借助核影射将线性 L PMV F 算法推广为非线 m m m 211T 性的 KL PMV F 算法. 我们知道 ,核映射的效果与其核 )( 1 1 b 2 1 2 1 B = M x - x ( ) `x - 6 x i i ji , jj ??? m m1 1i = 1 j = 1 j = 1 函数的选取有着直接的关系 ,按照文献[ 23 ] 所述 ,核 ( ) 构建模型 4的 L a gra nge 函数 , 可以得到是输入空间的一个函数 ,又是特征空间中通过核函数 1 1 T T P 非线性映射的内积表示. 特别地 ,核函数可定义为如 ( λ) L T,= TT+ TA T-`x x x x x 2 2 T ( ) ( ) ( ) ( ( ) ) ( ) 下形式 : K x , y=〈 n, 在核特征空间 x l l l ( ) ( ( ) ( ) 特征值问题 :中 ,原始的输入模式可用设计和实现过程 :T < T 1 T ( b) 2 <( ( ) Θ) αTM 评价了本文算法的有效性 , 本实验中选能被有效分开 , 不同类别的样本之间仍存在严重取 Dia bet e s 、Io no sp he re 、Vo t e 和 Tic 2t ac 2toe1 4 个 ( ) 的混叠现象 , 将直接影响分类的精度. 3 算法 L PMV F 、KL PMV F 和 Sp KL PMV F 在 Iri s [ 2 ×2 ] 数据集验证 L PM V F , KL PMV F 和 Sp KL PMV F 的和 So ybea n [ 4 ×2 ]两个数据集上均取得了较好的实分类能力. 在本文的所有实验中 , 对于每个测试集 , 选取每类样本数量的一半作为训练样本 , 另一半作为测试样本 , 本实验中采用 12N N 分类器进行分类. 针对不同数量的选择的特征 , 各种算法在 Dia bete s 、Io no sp here 、Vo te 和 Tic 2tac 2toe1 4 个数据集上的实验比较图 4 图4 给出了 FDA 、KFD 、L FDA 、L PMV F 、L PM V F 在 Io no sp he re 上的表现相对较差 , 仅优于 ( ) KFD ; 2 针对抽取出的特征数量的不同 , 算法 KL PMV F 和 Sp KL PMV F 算法随着选取的特征数量的不同 , 在 Dia bet e s 、Io no sp here 、Vo t e 和 Tic2t ac2 L PM V F 、KL PMV F 和 Sp KL PMV F 体现出广泛的 ( ) ( ) ( ) to e1 4 个 U C I 数据集的实验结果. 在实验中 , 算法适应性 , 性能较为优越 ; 3从图 4 b和 4 d中的 Sp KL PM V F 在 4 个分类数据集上的重组合矩阵分结果可以看出 , 随着抽取的特征数量的不同 , 算法别选取为[ 4 ×2 ] , [ 17 ×2 ] , [ 4 ×4 ]和[ 9 ×3 ] . 可以看 Sp KL PMV F 在 Io no sp he re 和 Tic2t ac2toe1 两个数 ( ) 出 : 1KFD 算法在 4 个数据集上的分类精度均据集上总是取得最高的分类精度 , 此时 , L FDA 也取处于底线 , 分析原因主要是 KFD 算法的目标是找得了较好的实验结果 , 性能较好. 到特征空间中的具有线性决策边界的基于核的分上述部分已对各种算法的分类能力和有效性加类规则 , 使得不同类样本间存在较严重的混叠. 此以了验证和评价 , 下面将对算法的时间复杂性加以时 , FDA 算法取得了较高的分类精度 , 且在 Vo t e 数分析和评价. 表 2 和表 3 分别给出了对应于图 4 中据集上取得了与 L PMV F 极为接近的分类结果 ,的在上述 4 个数据集上的平均分类精度和总体运行 873 5 期张召等 : 局部保持多投影向量 Fi sher 判别分析算法 ( ) 时间比较 , 可以看出 : 1 随着投影维数的不断变算法. 线性 FDA 的时间复杂性保持最低 , 优于另外化 , 算法 L PMV F 、KL PMV F 和 Sp KL PMV F 几乎几种算法. L FDA 的运行时间几乎总是介于线性总是取得了优于另外几种算法的分类精度 , 性能较 FDA 和非线性 KFD 之间 , 除了 Vo t e 数据集 , 而 ( ) 好; 2从各种算法的总体运行时间看 , 在大多数情 L PM V F 的时间复杂度与 L FDA 相接近. 综上所述 , 况下 , 非线性的 KL PMV F 和 Sp KL PM V F 运行需当样本维数比样本数量相对较少时 , 本文算法可通要花费的时间比线性 L PMV F 多 , 且运行时间接近 KFD 算法. KFD 在 Vo t e 数据集上花费了较低的运过特征值问题有效完成求解 , 且整体性能较好 , 且时行时间 , 且运行时间少于 KL PM V F 和 Sp KL PMV F 间复杂度较低. 表 2不同算法在 4 个数据集上的平均分类精度结果比较精度/ % 数据集FDA KFD L FDA L PMV F KL PMV F Sp KL PMV F Dia bet es 1 76 1 45 1 12 1 65 1 27 1 62 783562889184Io no sp here 8664798375921 63 1 58 1 38 1 81 1 30 1 56 961 55 391 38 621 27 971 63 791 12 891 57 Vot e Tic 2t ac 2toe1 851 42 651 00 821 70 851 65 851 26 891 84 表 3不同算法在 4 个数据集上的总体运行时间比较运行时间/ s 数据集 FDA KFD L FDA L PMV F KL PMV F Sp KL PMV F 01 5017 1 2280 1 9957 1 1840 1 6286 1 5363 10111Dia bet es 41 5586 51 3547 41 8240 51 1986 51 7879 51 6216 Io no sp here 01 9076 21 1905 31 9956 41 2263 41 5224 41 3204 Vot e Tic 2t ac 2to e1 41 9751 51 4829 41 9270 51 1217 51 7109 51 6296 31 3 木材节子缺陷识别实验其中 , L 为分解层数 , h 为高频子带数量 , s 为低频子 ( ) 带数量 , FV _ e 和 FV _ s t d 分别为第 L 层逼近子带高为了进一步检验 L PMV F 及非线性 Sp KL PMV F 算法的性能 , 在 V T T B uil di ng Tec h nolo2 斯分布的均值和标准差 , 该特征能有效地刻画木材 [ 25 226 ] (ψ ψ gy 提供的木材图像数据集上进行木材缺陷识图像的局部和全局特征. 若矩阵 A= ,,, i i 1 i 2 [ 1 ] [ 2 ] [ 8 , 10 ]ψ) (ψψψ) , A= ,,为两个特征集合 , 则 A别实验 , 并与经典的 FDA 、KFD和 L FDA i n j j1 , j2 j n i 和 A 之间的距离尺度可定义为算法作了对比. 在实验中 , 先将原始木材图像进行 3 j n ( 层对偶树复小波变换 D ual2Tree Co mp le x Wavelet 2 ) ψψ( ( )d is t A, A= - 25 i j i t j t [ 27 ] ?t = 1 ) Tra n sfo r m ,D TCW T, 选取基于不同方向、不同若矩阵 A和 A分别被用于存储有缺陷样本和 1 2 频率的能量统计特征作为实验分类的依据 , 完成特无缺陷样本对应的特征 , 分别被赋予类标签 l = 1 和征抽取后 , 用 K 近邻法分类. 该木材数据库包括 - 1 , 此时 , 对给定的任意一个新的木材样本图像 A ,738 幅木材图片和 438 个已明确标定的节子缺陷类 ) ) ( ( 若 d is t A , A = mi n d is t A , A , 且 A 属于有缺陷 1 j 1 型 , 主要包括腐朽、油脂、木节和虫眼等 , 实验中通过 ( ) 样本即类别标签 l = 1, 则将样本 A 判别为有缺陷手工方式将木材的原始图片剪裁成各种像素大小的区域 , 反之认为该样本为正常区域. 图 5 给出各种算子图像 , 接着采用 D TCW T 变换提取 38 维的特征法从木材特征集中提取的特征的分布 , 可以看出有作为实验的主要依据 , 其中包含有缺陷训练样本缺陷和无缺陷样本特征在 L PMV F 、KL PMV F 和 ( ) 400 个即正类样本 , 标定为 1和 400 个无缺陷训练 Sp KL PMV F 的嵌入空间中更加易于分类 , 由此可 ( ) 样本即负类样本 , 标定为 - 1. D TCW T 变换提取训练得到性能优良的分类器模型 , 提高识别率. 此出的木材纹理特征可表示如下 : 3 6 时 , KFD 算法将两类数据投影成为一个孤立点 , 这 FV _ e L , h , FV _ s t d L , h+ ?? 里不给出示意图. L = 1 h = 1 FV _ e s , FV _ s t d s( )24 ? s = 1 图 5 原始数据和各种算法从该木材数据集上提取出的特征在二维空间中的分布情况 ( ) ( ) 图 6 给出了 FDA 、KFD 、L FDA 、L PMV F 、; 2图 6 b给出了各种算法在不同数量的近邻数 KL PMV F 和 Sp KL PMV F 算法在不同的投影维数下的木材缺陷识别率 , 其中的 d 为算法选择的特征和近邻数量条件下的缺陷识别率. 在实验中 , 算法维数. 在相同测试条件下 , 本文算法几乎总是取得了 Sp KL PM V F 的重组合矩阵取 [ 19 ×2 ] . 可以看出 : 最高的缺陷识别率 , 明显优于其他几种算法 , 且随着 ( ) ( ) 1随着投影维数的不同 , L PMV F 、KL PMV F 和近邻数量的不断增加 , 体现出良好的适应性; 3算 Sp KL PM V F 取得了较高的缺陷识别率 , 且算法保法 L FDA 在该数据集上的表现较差 , 性能较为不稳持稳定特性 , 此外 , FDA 在该木材数据库上表现较定 , 且在大多数情况下 , 缺陷识别率达到最低 , 性能 ( ) 好 , 接近本文算法的识别能力 , 实验结果如图 6 a 明显劣于 FDA 和本文算法. 所示 , 图中的 N 是原始样本数量 , D 是原始样本维图 6 在不同的投影维数和近邻数量条件下 , 各种算法在该木材图像数据库上的识别精度 875 5 期张召等 : 局部保持多投影向量 Fi sher 判别分析算法 f eat ure ext ractio n a nd reco gnitio n . I E EE Tra nsactio ns o n ( ) Pat t er n A nal ysi s a nd Machi ne Int elligence , 2005 , 27 2: 4 结论与展望2302244 [ 4 ] Xio ng T , Ye J P , Li Q , Cher ka ssky V , J a na r dan R. Effi2 在 Fi she r 判别分析 FDA 和典型相关分析 CCAcient ker nel di scri mi nant a nal ysi s via Q R deco mpo sitio n/ / A d2 的基础上 , 采用以样本的类标号形式给出的先验知 va nce s i n Neural Info r matio n Proce ssi ng Syst e ms 17 , 2005 [ 5 ] 识 , 考虑数据的局部性 , 提出了一种新的多模态识 Yang M H . Ker nel eigenf ace s vs. ker nel Fi sherf ace s : Face reco gnitio n usi ng ker nel met ho ds/ / Proceedi ngs of t he 5t h 别方法 ———监督 L PMV F . L PMV F 可通过求解两 I E EE Int er natio nal Co nf erence o n A uto matic Face a nd Ges2 个标准特征值问题完成 , 最终求取得到一对有效的 t ure Reco gnitio n . Wa shi ngto n , DC , I E EE Co mp ut er Socie2 投影变换矩阵或向量. L PMV F 可抽取出描述能力 t y , 2002 : 2152 220 较强的特征信息 , 使得原始数据的投影在构造的嵌 [ 6 ] L u J W , Plat a nio ti s K N , Venet sa nopo ulo s A N . Face reco g2 入空间中便于分类 , 并可有效避免奇异性 , 同时 nitio n u si ng ker nel di rect di scri mi na nt a nal ysi s al go rit hms. ( ) I E EE Tra n sactio n s o n Neural Net wo r k s , 2003 , 14 1: 1172 L PMV F 可有效保持样本数据间的局部近邻关系. 126 借助核映射 , L PMV F 可快速被推广为非线性的 [ 7 ] Mi n W , L u K , He X. Localit y p reser vi ng p rojectio n . Pat2 KL PMV F 算法. 本文中试图进一步增强非线性 ( ) t er n Reco gnitio n , 2004 , 37 4: 7812788 KL PMV F 算法的学习能力 , 构造原始数据的子模 [ 8 ] Ma sa shi Sugiya ma . Local Fi sher di scri mi na nt a nal ysi s fo r su2 式结构空间 , 对原始数据矩阵进行重新组合 , 将 p er vi sed di men sio nalit y reductio n/ / Proceedi ngs of t he 23 r d KL PMV F 推广为另一种形式的非线性分析方 Int er natio nal Co nf erence o n Machi ne L ea r ni ng . Pit t sbur gh , Penn syl va nia , 2006 : 9052 912 法 ———子模式 KL PMV F . 用 L PMV F 及其非线性 [ 9 ] Ki m Tae 2Kyun , Kit tler J . Locall y li nea r di scri mi na nt a nal y2 的推广算法进行有效特征的选择和提取后 , 能够有 si s fo r multi mo dall y di st ri but ed cla sse s fo r f ace reco gnitio n 效利用类标号监督信息提高算法的分类性能和在模 wit h a si ngle mo del i mage . I EE E Tra n sactio n s o n Pat t er n 式识别应用中的识别率. 在大多数情况下 , 本文算法 ( ) A nal ysi s a nd Machi ne Int elligence , 2005 , 27 3: 3182327 体现出的整体性能接近于甚至优于传统经典的 [ 10 ] Ma sa shi Sugiya ma . Di men sio nalit y reductio n of multi mo dal FDA 、KFD 和 L FDA 算法. 目前 , 半监督学习和多 labeled dat a by local Fi sher di scri mi na nt a nal ysi s. J o ur nal of 模态识别算法是机器学习领域中的研究热点 , 在未 ( ) Machi ne L ea r ni ng Re sea rch , 2007 , 8 5: 102721061 来的研究中 , 可将半监督以及多模态的思想方法与 [ 11 ] Bo r ga M , Knut sso n H . Cano nical co r relatio n a nal ysi s i n ea r2 本文算法结合起来 , 实现多模态半监督特征选择算 l y vi sio n Proce ssi ng/ / Proceedi ngs of t he 9t h Europea n Sym2 法. 此外 , 考虑如何有效选取非线性 KL PMV F 算法 po si u m o n A rtificial Neural Net wo r k s. Br uges , Bel gi um , 中的核函数和最优核参数也是一个值得研究的 2001 : 3092314 方向. [ 12 ] Zheng W M , Zho u X Y , Zo u C R , Zhao L . Facial exp ressio n ( reco gnitio n u si ng ker nel ca no nical co r relatio n a nal ysi s KC2 ) CA. I E EE Tran sactio n s o n Neural Net wo r k s , 2006 , 17 ( ) 1: 2332238 致谢在此 , 我们向对本文工作予以帮助和建议 [ 13 ] Loo g M , va n Gi nneken B , Dui n R P W. Di men sio nalit y re2 的老师和同学表示感谢 , 并向对本文工作中的不足 ductio n by ca no nical co nt ext ual co r relatio n p rojectio ns/ / Pro2 之处提出宝贵评审意见的审稿专家表示衷心的 ceedi ngs of t he Europ ea n Co nf erence o n Co mp ut er Vi sio n . 感谢 ! Prague Czech Rep ublic : Sp ri nger , 2004 : 5622573 [ 14 ] Sun Q ua n2Sen , Zeng Sheng2Gen , Li u Ya n , Heng Pheng2 参考文献A nn , Xia De 2Shen . A new met ho d of f eat ure f usio n a nd it s applicatio n i n i mage reco gnitio n . Pat t er n Reco gnitio n , 2005 , ( ) 38 12: 243722448 [ 1 ] Pat t er n Cla ssificatio n . New Duda R O , Ha rt P E , Sto r k D. H sieha Pi ng2Cheng , Tung Pi2Cheng. A no vel hybrid ap2 [ 15 ] Yo r k : Wiley2Int er science , 2000 p roach ba sed o n sub2p at t er n t echnique a nd w hit ened PCA fo r Mi ka S , Rat sch G , We sto n J et al . Fi sher di scri mi na nt a nal2 [ 2 ] ( ) f ace reco gnitio n . Pat t er n Reco gnitio n , 2009 , 42 5: 9782984 ysi s wit h ker nel s/ / Hu Y H , L a r sen J , Wil so n E , Do ugla s S. Neural Net wo r ks fo r Signal Proce ssi ng , IX , 1999 : 41248 [ 16 ] Tan Keren , Chen So ngca n . Adap tivel y wei ght ed sub2p at t er n [ 3 ] ( ) Ya ng J , Fra ngi A F , Ya ng J Y , Zhang D , J i n Z. KPCA pl us PCA fo r f ace reco gnitio n . Neuroco mp uti ng , 2005 , 64 3 : 505L DA : A co mplet e ker nel Fi sher di scri mi nant f ra mewo r k fo r 2511 2H , Chen S. No n2negative mat ri x f acto riza2 Zha ng D , Zho u ZSch ? ol kopf B , Smola A J . L ea r ni ng wit h Ker nel s. Ca m2[ 17 ] [ 22 ] tio n o n ker nel s/ / Proceedi ngs of t he 9t h Pacific Ri m Int er na2 bridge , MA : M I T Pre ss , 2002 ( ) Zhang D Q , Chen S C. Cl u st eri ng i nco mplet e dat a usi ng ker2 [ 23 ] tio nal Co nf erence o n A rtificial Int elligence P R ICA I ’06 . nel2ba sed f uzzy c 2mea n s al go rit h m. Neural Proce ssi ng L et2 Guili n , Chi na , L N A I , 2006 , 4099 : 4042412 ( ) Ha r doo n D R , Szedma k S , Shawe 2Taylo r J . Ca no nical co r re2 t er s , 2003 , 18 3: 1552 162 [ 18 ] latio n a nal ysi s : A n o ver view wit h applicatio n to lea r ni ng [ 24 ] Bla ke C , Keo gh E , Merz C J . U CI repo sito r y of machi ne ( ) met ho ds. Neural co mp ut atio n , 2004 , 16 12: 263922664 lear ni ng dat a ba se s. Dep a rt ment of Info r matio n a nd Co mp ut er Tsa ng Ivo r W , Kwo k J a me s T. Di st a nce met ric lea r ni ng wit h [ 19 ] Science , U niver sit y of Califo r nia , Ir vi ne , 1998 ker nel s/ / Proceedi ngs of t he Int er natio nal Co nf erence o n A r2 Ni skanen Mat ti , Sil ven Olli , Ka uppi nen Ha nnu . Exp eri2 [ 25 ] tificial Neural Net wo r ks. Ist a nbul , Tur key : Sp ri nger , 2003 : ment s wit h SO M ba sed i n sp ectio n of woo d/ / Proceedi ngs of 1262129 t he Int er natio nal Co nf erence o n Q ualit y Co nt rol by A rtificial Zha ng Dao2Qia ng , Zho u Zhi2Hua , Chen So ng2Can . Se mi2su2 Vi sio n . L e Creusot , Bur gundy , 2001 : 3112316 [ 20 ] [ 26 ] p er vi sed di men sio nalit y reductio n/ / Proceedi ngs of t he 7t h SI2 Sil vné Olli , Ni ska nen Mat ti , Ka uppi nen Ha nnu . Woo d i n2 ( ) A M Int er natio nal Co nf erence o n Dat a Mi ni ng SDM ’07 . sp ectio n wit h no n2sup er vi sed cl u st eri ng . Machi ne Vi sio n a nd Mi nneapoli s , MN , 2007 : 6292 634 ( ) Applicatio n s , 2003 , 13 5: 2752285 Bel ki n M , Niyo gi P . L aplacia n eigen map s a nd sp ect ral t ech2 [ 21 ] [ 27 ] Ki ngsbur y N G. Co mplex wavelet s fo r shif t i nva ria nt a nal ysi s nique s fo r e mbeddi ng a nd cl u st eri ng/ / Proceedi ngs of t he a nd filt eri ng of si gnal . J o ur nal of Applied and Co mp ut atio nal Co nf erence Adva nce s i n Neural Info r matio n Processi ng ( ) Ha r mo nic A nal ysi s , 2001 , 10 3: 2342253 Syst e m 15 . Ca mbridge , MA : M I T Press , 2001 : 5852591 ZHANG Zhao , bo r n in 1984 , ma s2 Y E Ning , bo r n in 1967 , Ph. D. , a ssociate p rof e sso r . ter ca ndidate. Hi s resea rch interest s in2 Hi s cur rent re search intere st s incl ude pat ter n reco gnitio n , cl ude machi ne lea r ning , intelligent info r2 machine lea r ning , data mining and bioinfo r matics. matio n p roce ssing and p at t er n reco gni2 2L in , bo r n in 1982 , Ph. D. candidate . Hi s cur2 Y E Qiao tio n. rent re search intere st s incl ude data mi ning , machine lea r ning and pat ter n reco gnitio n. Background Thi s wo r k wa s suppo rted by t he Natio nal Science Fo un2 2 of t he localit y p re servatio n ba sed met ho ds fo r f eat ure selec tio n and pat ter n reco gnitio n inspire us to p ay mo re at tentio n datio n of China under grant No1 30671639 , t he Nat ural Sci2 to t he localit y ba sed technique s. ence Fo undatio n of J iangsu Pro vince of Chi na under gra nt No1 B K2009393 , t he Inno vatio n Fo undatio n 2008 of J ia ngsu In t hi s pap er , t he a ut ho r s co nsider t he sup ervi sed f ea2 Pro vince of Chi na under grant No1 164070265 , t he Inno vatio n t ure selectio n p ro blem w here sample s are acco mpa nied wit h cla ss label s a nd p ropo se a n eff ective f eat ure selectio n ap2 Fo undatio n 2009 of Na njing Fo re st r y U niver sit y under gra nt No1 2009106 a nd t he Scientific Re sea rch Fo undatio n 2009 of p roach called localit y p reserving multi2p rojectio n vecto r Fi sh2 J iangsu Pro vince of China under grant No1 CX09 S_013 Z. () er di scriminant a nalysi s L PMV F. L PMV F ta ke s t he local Mo re and mo re re search and applicatio n area s need to st r uct ure of t he o riginal sa mples data i nto acco unt , t hus t he deal wit h t he la r ger high2dimensio nal data , w hich leads to a dat a point s ca n be embedded app rop riately. By defining t he new guideline s , t he p ropo sed met ho ds have several o bvio us ho t of st udying t he met ho ds of f eat ure selectio n and f eat ure adva nt age s o ver so me e stabli shed cla ssical f eat ure selectio n selectio n ha s been an impo rta nt p rep roce ssing step , w hich leads us to co nsider met ho ds of f eat ure selectio n t hat allo w met ho ds . Exp eri mental re sult s sho w t hat t he p ropo sed met h2 o ne to rep resent t he data point s in a lo w2dimensio nal embed2 o ds ca n ext ract t he goo d f eat ure s and eff ectively imp ro ve t he accuracie s by int ro ducing t he cla ss la bel s a s p rio ri kno wl2 ding space. In o r der to embed t he sample s data well , it i s im2 edge. Furt her mo re , viewing f ro m t he goo d p rop ert y fo r data po rtant to p re serve t he sp atial local st r uct ure of t he o riginal vi sualizatio n , it i s ver y suitable fo r p at ter n reco gnitio n re2 data point s. Ma ny localit y ba sed app roaches have been co n2 tinuo usly p ropo sed fo r f eat ure selectio n in recent several searche s and applicatio ns. yea r s , such a s L P P , L FDA , etc . The succe ssf ul applicatio ns

                    本文档为【局部保持多投影向量Fisher判别分析算法】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

局部保持多投影向量Fisher判别分析算法

你可能还喜欢