特征空间属性加权模糊核聚类算法

特征空间属性加权模糊核聚类算法特征空间属性加权模糊核聚类算法特征空间属性加权模糊核聚类算法第26卷第8期 2006年8月计算机应用 ComputerApplications V0l_26No.8 Aug.2006 文章编号:1001—9081(2006)08—1888—02 特征空间属性加权模糊核聚类算法范新南,沈红斌,陈学忠 (1.河海大学计算机及信息工程学院,江苏常州213022; 2.上海交通大学图像处理与模式识别研究所,上海2o003O) (fanxn@hhuc.edu.an) 摘要:充分考虑了属性间的不...

特征空间属性加权模糊核聚类算法特征空间属性加权模糊核聚类算法第26卷第8期 2006年8月计算机应用 ComputerApplications V0l_26No.8 Aug.2006 文章编号:1001—9081(2006)08—1888—02 特征空间属性加权模糊核聚类算法范新南,沈红斌,陈学忠 (1.河海大学计算机及信息工程学院,江苏常州213022; 2.上海交通大学图像处理与模式识别研究所,上海2o003O) (fanxn@hhuc.edu.an) 摘要:充分考虑了属性间的不平衡性,通过Mercer核把原始的观察空间映射到高维特征空间, 提出了一种新的特征空间中的加权模糊核聚类算法WFKCA.众多实例表明,WFKCA比传统的聚类算法具有更好的性能,且对于高维数据具有很好的聚类效果. 关键词:模糊聚类;核;模式识别中图分类号:TP3l1.13l文献标识码:A Newmercer-kernelbasedFuzzyclusteringalgorithm withattributeweightsinfeaturespace FANXin—nan,SHENHong—bin',CHENXue—zhong (1.CollegeofCompmerandInformationEngineering,HohaiUniversity;ChangzhouJiangs u213022,China; 2.InstituteofImageProcessingandPatternRecognhion,ShanghaiJiaotongUniversity,Shan ghai200030,China) Abstract:Consideringtheimbalancebetweentheattributesfully,anewweightedfuzzykerne l—clusteringalgorithm namedWFKCAwaspresented.WFKCAperformsclusteringinhighfeaturespacemappedb ymercerkernels.Lotsofexamples demonstratethatWFKCAisausefulclusteringtoo1. Keywords:Fuzzyclustering;kernel;patternrecognition 0引言聚类分析是数据分析,理解与数据可视化的有效工具.给定一个数据集厂={.,,…,}CR,聚类分析的目的在于根据某种相似性原则将厂分成C个类别.聚类分析是统计理论,数据挖掘和模式识别领域中的一个重要课题.J.聚类分析理论已经在众多领域得到了广泛应用:在商业竞争中,聚类分析能帮助商家在客户数据库中根据客户的购物模式发现不同的组别,从而更优地决策;在信息迅速增长的今天,聚类算法能有效的进行文本分类;作为数据挖掘的有效工具,聚类分析能帮助理解数据的不同分布,观察各个类别的不同性质,从而对其中感兴趣的类别进行进一步的分析. 对于常用的基于分割的聚类算法而言,其一般的方法是用c 个类中心向量(=1,2,…,C)?R来代表每个类,根据相似性原则把样本五分到射类别中. 假设每个数据样本有个属性:={d,,…,l, 传统的聚类算法,如K—means,FCM等都假设样本的属性对每个类别是平等重要的.但实际上,不同的属性对于不同类别的贡献可能是不相同的.文献[5]提出了在聚类分析之前进行特征选择的方法选择重要的特征进行聚类.由于文献[5] 在聚类分析之前就确定了重要的属性,因此聚类结果的好坏与产生数据样本的物理背景将密切相关;另外,它假设所有的类别都具有相同的重要属性集合,而实际上,不同的类别的重要属性集合可能并不是一致的. 为了解决这一问题,可以在聚类过程中根据不同类的具体特性动态计算各个属性对于不同类别的重要性.文献[6] 提出了观察空间加权距离度量的硬聚类算法;文献[7]提出了两个观察空间加权距离度量的模糊聚类算法SCADI, SCAD2.文献[6,7]所阐述的算法都存在和FCM一样的缺点:它们适用于团状数据集,但对于非团状的一般高维数据集的聚类则往往得不到理想的结果.一个解决非团状数据集的聚类方法是用核函数把数据从观察空间映射到高维特征空间Is.9].但传统的核聚类算法存在两个缺点:1)核聚类算法的聚类中心很难理解和表示;2)忽略了特征空间中的属性不平衡性.为此,本文提出了加权模糊核聚类算法WFKCA, 在聚类分析中动态计算属性问的不平衡性.实验结果表明, 对如高维非团状数据集,WFKCA比传统的聚类算法具有更好的效果. 1加权模糊核聚类算法WFKCA 假设咖为一非线性映射函数,咖:p一咖(p)?HS,其中 P?OS,是观察空间的一个样本,表示映射以后的高维特征空间.我们提出以下WFKCA的目标函数: CL 嗍以ll咖()一咖()ll() C s.t.?[0,1]And?=11??N(2)i:t L 埘?[0,1]And?埘=ll?i?C(3)=1 其中c为类别数,=(.,,…,)是第i类中心, 表示第广样本属于第类的隶属度;tt,代表第k个属性对收稿日期:2006—02—16;修订日期:2006—04—14 作者简介:范新南(1964一),男,江苏常州人,副教授,博士,主要研究方向:图形图像处理,计算机网络通信;沈红斌(1979一),男,江苏镇江人,博士,主要研究方向:模式识别,生物信息学;陈学忠(1968一),男,江苏常州人, 副教授,主要研究方向:数据挖掘,图像处理. 第8期范新南等:特征空间属性加权模糊核聚类算法1889 于第i类的权重,rt'b>1,>1. 根据式(1)可以得到: ll()一()=().()一2().()+ ().() = K(,)一2K(x~,)+K(,) (4) 其中,K(x,Y)=(b()?(b(y)为用户定义的核映射函数. 如果采用常用的高斯核函数: K(x,歹)…p() 那么K(,):1,则(1)就演变为: -,,=2???(1一K(xsk)) =2 耋砉砉L_ti1i11(一exp(二1/1/=2???(1一ex11=…,, (5) 式(5)对求偏导得: OJwFKCA = 4b' …p ()) = 0(6) 解式(6)得: m … 1. …j=l芦Or?…1 根据W的不同取值,得到: fv=0ifW.k=0 ??K(xjk,)? 上—————一if?0 ??K(,)』=1 (8) C 由?=1,根据拉格朗日方程得到以下无限制方程:i=l ?A(?一1)j:li=l 其中,为拉各朗日系数. 式(9)对,并最终解得: 1 = r=l L ?wq~(1一(~Vil,))I=l , ?以(1一K(xs,,))k:l 同理,由?W=1得到以下的无限制函数:'=l C, "=2???以(1一K(,))一…111 C, ?A(?一1) 解得: 1 (1一(,)) (1一(,)) (9) (10) (12) (1),(8),(10),(12)构成了WFKCA聚类算法. 2实例分析 2.1IRIS数据集测试这个实例中,我们用标准数据集IRIS来测试FCM, SCAD1,SCAD2和WFKCA算法的性能.IRIS数据集共有150个样本,分成3类,其中,每个样本有4个属性=.,, .,}.设定参数m:2,JB=2,为标准方差. 表1给出了各算法在100次实验中的平均性能,除了 SCAD2外所有算法的起始中心点为随机产生.实验结果发现,SCAD2对起始中心的选择非常敏感,表1给出了随机选择中心SCAD2—1以及把FCM迭代10次后的中心点作为起始中心点的SCAD2_2的性能比较,可以发现,SCAD2_2性能比SCAD2—1有很大提高. 表l各算法在IRIS标准数据集的性能比较从表1可以看出,WFKCA最终的聚类结果在四个算法中是最好的.同时,表1也证明了WFKCA,SCAD1及SCAD2的算法收敛迭代次数要比FCM少,这和WFKCA,SCAD1和 SCAD2的权重系数在迭代过程中所产生的引导作用密切相关. 2.2高维数据聚类分析本实例采用文献[11]中鉴别宋代官汝窑器与民汝窑器 . 的数据作为测试数据集,该数据集中每个样本有10个属性表2给出了各算法在100次试验中在该数据集上的平均聚类结果.从结果可以看出来,WFKCA具有最好的性能.这表明 WFKCA算法在处理高维数据集中同样存在着优势. 表2高维数据各算法性能比较 3结语传统的聚类算法,如FCM等对于"非团状"的数据集很难得到理想的聚类结果,主要是由于下面的原因: (1)算法在观察空间中进行聚类分析,对"团状"数据集有效,但对一些更一般的数据集,特别是高维数据集将不能得到理想的结果; (2)传统的聚类算法,如FCM等,忽略了属性间的不平衡性,而这一点在实际生活中常常存在. 本文基于核函数,将数据集从观察空间映射到高维特征空间,提出了特征空间中新的属性加权模糊核聚类算法 WFKCA.实验表明,对于一般高维数据集,WFKCA能更好地反映属性间的不平衡性,并得到很好的聚类结果. (下转第1915页) 一一以 ? ? 2 =一 ,, 扣一 Il 第8期黎升洪等:线性时态逻辑中的特性模式1915 3)将特性LTL公式翻译为一个自动机. 4)计算自动机与全局有限状态自动机的同步积,形成一个自动机. 5)检查最后这个自动机的语言是否为空.如果为非空, 则所描述的进程满足指定的特性模式. 6)SPIN中,m公式用来描述坏的特性模式,如果自动机的语言为非空,则知道描述的系统不能满足特性模式要求, 此时可以发现反例,这对调试非常有用. Global BeforeR AfterO BetweenOandR AfterOuntilR QQRQ 图2特性作用范围图3特性模式的分类这里,给出一个如图3所示的状态图,其对应的SPIN代码如下所示. intx=0,Y=0; prectypopl()I d0 =atomic【(Y<2)&&(x<3)一>x=x+1) od1 proctypop2()I d0 =atomic【(x+y)==3一>x=0) =atomic【(xY)==4一>Y=0) od1 proctypop3()I d0 =atomic【(Y<2)&&(x<3)一>x=x+1) od1 initI runpl(); runp2(); runp3()) 在SPIN4.2.5下,分别验证其下列特性: 1)安全性示例:验证系统是否满足L1.L公式口?(+Y) =1,通过SPIN验证和仿真功能,发现(x,y)的冲突序列为: (0,0),(1,0),(2,0),(2,1),[(2,2),(0,2),(1,2)]}. 2)活性示例:验证系统是否满足口(2x>Y),通过SPIN 验证和仿真功能,发现冲突序列为:(0,0). 3)响应性示例:验证系统是否满足口((+y= 1)等?(+Y=3),通过SPIN验证功能,特性可满足. 6结语高层次的定义和抽象是自动编写形式化规格说明的重要方法,线性时态逻辑特性模式特别适用于有限状态验证工具 SPIN中的规格说明.本文从特性模式的分类和作用范围描述LTL公式,对自动编写系统规格说明特性有很大帮助,如文献[7]给出了SPIN中常用的特性模式是其应用的一个方面. 参考文献: 【11CLARKEEM,SCHLINGLOFFBH.MedelChecking[AI.Handbook ofAutomatedReasoning[C1.BandII,S.Elsevier,2001.1637— 179o. [21BI~RARDB,BIDOITM,FINKELA.SystemsandSoftwareVerifiea- fion:Model?CheckingTechniquesandTools[MI.Berlin:Springer, 1999. 【31KRIPKESA.Semanticalconsiderationsonmedallogic【J1.Acta PhilesophieaFenniea,1963,16:83—94. 【41PNUELIA.TheTemporalSemanticsofConcm'rentPrograms【A】. ProceedingsoftheInternationalSympoisumonSemanticsofConcur- rentComputation,LectureNotesInComputerScience[C1.Springer- Verlag,1979,Vol70. 【51BEN—ARIM,PNUELIA,MANNAZ.TheTemporalcofBranch— ingTime[J1.ActaInformatica,1983,20(3):207—226. 【61EMERSONEA,HALPERNJY."Sometimes"and"NotNever" visited:onbranchingverBuslineartimetemporallogic[J1.Joumal oftheACM,1986,33(1):151—178. 【71HOLZMANNGJ.SpinModelChecker:.ThePrimerandReference Manual[MI.NewYork:AddisonWesley,2003.608. 【81HOLZMANNGJ.Designandvalidationofcomputerprotocols[MI. 78. London:PRENTICE?HALL,1991.22— 【91HOLZMANNGJ.TheModelCheckerSPIN[J1.IEEEtrausactionson softwareengineering,1997,23(5). (上接第1889页) 参考文献: H0PPERF.Fuzzyclusteranalysis【M】.Chichester:JohnWiley, l999. HANJW,KAMBERM.Datamining:ConceptandTechniques【M】. SanMatco:MorganKanfnlann,2001. BEZDEKJC.Patternrecognitionwithfuzzyobjectivefunctionalgo- rithms【M】.NewYork:HenumPress,1981. 沈红斌,王士同.离群模糊核聚类算法【J】.软件,2004,15 (7):1021—1029. YEUNGDS,WANGXZ.ImprovingPerformanceofSimilarity?Based ClusteringbyFeatureWeiShtLearning【J】.IEEETransactionsOn 队MI,2002,24(4):556—561. CHANAEY,CHINGAWK.Anoptimizationalgorithmforclustering usingweighteddissimilaritymeas~【J】.PatternRecognition,2004, 37(5):943—952. 【7】FRIGUIH,NASRAOU10.Unsupervisedlearningofprototypesand attributeweights【J】.PatternRecognition,2004,37:567—581. 【8】张莉,周伟达,焦李成.核聚类算法【J】.计算机,2002,25 (6):587—590. 【9】GIROLAMIM.MemerKernel?BasedClusteringinFeatureSpace 【J】.IEEETransactionsonNeuralNe~orks,2O02,13(3):780— 784. 【10】沈红斌,杨杰,王士同.基于信息理论的合作模糊聚类算法研究【J】.计算机,2005,8:1287—1294. 【ll】王煜,陆文聪.宋代汝窑古瓷的微量元素——支持向量机算法研究【J】.计算机与应用化学,2OO4,2:191—194. …

                    本文档为【特征空间属性加权模糊核聚类算法】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

特征空间属性加权模糊核聚类算法

你可能还喜欢