特征空间属性加权模糊核聚类算法
特征空间属性加权模糊核聚类算法 第26卷第8期
2006年8月
计算机应用
ComputerApplications
V0l_26No.8
Aug.2006
文章编号:1001—9081(2006)08—1888—02
特征空间属性加权模糊核聚类算法
范新南,沈红斌,陈学忠
(1.河海大学计算机及信息工程学院,江苏常州213022;
2.上海交通大学图像处理与模式识别研究所,上海2o003O) (fanxn@hhuc.edu.an)
摘要:充分考虑了属性间的不平衡性,通过Mercer核把原始的观察空间映射到高维特征空间,
提出了一种新的特征空间中的加权模糊核聚类算法WFKCA.众多实例表明,WFKCA比传统的聚类
算法具有更好的性能,且对于高维数据具有很好的聚类效果.
关键词:模糊聚类;核;模式识别
中图分类号:TP3l1.13l文献标识码:A
Newmercer-kernelbasedFuzzyclusteringalgorithm
withattributeweightsinfeaturespace FANXin—nan,SHENHong—bin',CHENXue—zhong
(1.CollegeofCompmerandInformationEngineering,HohaiUniversity;ChangzhouJiangs
u213022,China;
2.InstituteofImageProcessingandPatternRecognhion,ShanghaiJiaotongUniversity,Shan
ghai200030,China)
Abstract:Consideringtheimbalancebetweentheattributesfully,anewweightedfuzzykerne
l—clusteringalgorithm
namedWFKCAwaspresented.WFKCAperformsclusteringinhighfeaturespacemappedb
ymercerkernels.Lotsofexamples demonstratethatWFKCAisausefulclusteringtoo1.
Keywords:Fuzzyclustering;kernel;patternrecognition
0引言
聚类分析是数据分析,理解与数据可视化的有效工
具.给定一个数据集厂={.,,…,}CR,聚类
分析的目的在于根据某种相似性原则将厂分成C个类别.聚 类分析是统计理论,数据挖掘和模式识别领域中的一个重要 课题.J.聚类分析理论已经在众多领域得到了广泛应用:在 商业竞争中,聚类分析能帮助商家在客户数据库中根据客户 的购物模式发现不同的组别,从而更优地决策;在信息迅速增 长的今天,聚类算法能有效的进行文本分类;作为数据挖掘的 有效工具,聚类分析能帮助理解数据的不同分布,观察各个类 别的不同性质,从而对其中感兴趣的类别进行进一步的分析. 对于常用的基于分割的聚类算法而言,其一般的方法是用c 个类中心向量(=1,2,…,C)?R来代表每个类,根据相
似性原则把样本五分到射类别中.
假设每个数据样本有个属性:={d,,…,l,
传统的聚类算法,如K—means,FCM等都假设样本的属性对每 个类别是平等重要的.但实际上,不同的属性对于不同类别 的贡献可能是不相同的.文献[5]提出了在聚类分析之前进 行特征选择的方法选择重要的特征进行聚类.由于文献[5] 在聚类分析之前就确定了重要的属性,因此聚类结果的好坏 与产生数据样本的物理背景将密切相关;另外,它假设所有的 类别都具有相同的重要属性集合,而实际上,不同的类别的重 要属性集合可能并不是一致的.
为了解决这一问题,可以在聚类过程中根据不同类的具 体特性动态计算各个属性对于不同类别的重要性.文献[6] 提出了观察空间加权距离度量的硬聚类算法;文献[7]提出 了两个观察空间加权距离度量的模糊聚类算法SCADI, SCAD2.文献[6,7]所阐述的算法都存在和FCM一样的缺 点:它们适用于团状数据集,但对于非团状的一般高维数据集 的聚类则往往得不到理想的结果.一个解决非团状数据集的 聚类方法是用核函数把数据从观察空间映射到高维特征空 间Is.9].但传统的核聚类算法存在两个缺点:1)核聚类算 法的聚类中心很难理解和表示;2)忽略了特征空间中的属性 不平衡性.为此,本文提出了加权模糊核聚类算法WFKCA, 在聚类分析中动态计算属性问的不平衡性.实验结果表明, 对如高维非团状数据集,WFKCA比传统的聚类算法具有更 好的效果.
1加权模糊核聚类算法WFKCA
假设咖为一非线性映射函数,咖:p一咖(p)?HS,其中 P?OS,是观察空间的一个样本,表示映射以后的高维特 征空间.我们提出以下WFKCA的目标函数:
CL
嗍以ll咖()一咖()ll()
C
s.t.?[0,1]And?=11??N(2)i:t
L
埘?[0,1]And?埘=ll?i?C(3)=1
其中c为类别数,=(.,,…,)是第i类中心,
表示第广样本属于第类的隶属度;tt,代表第k个属性对 收稿日期:2006—02—16;修订日期:2006—04—14 作者简介:范新南(1964一),男,江苏常州人,副教授,博士,主要研究方向:图形图像处
理,计算机网络通信;沈红斌(1979一),男,江苏镇
江人,博士,主要研究方向:模式识别,生物信息学;陈学忠(1968一),男,江苏常州人,
副教授,主要研究方向:数据挖掘,图像处理.
第8期范新南等:特征空间属性加权模糊核聚类算法1889
于第i类的权重,rt'b>1,>1. 根据式(1)可以得到:
ll()一()=().()一2().()+
().()
=
K(,)一2K(x~,)+K(,)
(4)
其中,K(x,Y)=(b()?(b(y)为用户定义的核映射函数. 如果采用常用的高斯核函数:
K(x,歹)…p()
那么K(,):1,则(1)就演变为:
-,,=2???(1一K(xsk))
=2
耋砉砉L_ti1i11(一exp(二1/1/=2???(1一ex11=…,, (5)
式(5)对求偏导得:
OJwFKCA
=
4b'
…p
())
=
0(6)
解式(6)得:
m
…
1.
…j=l芦Or?…1
根据W的不同取值,得到: fv=0ifW.k=0 ??K(xjk,)?
上—————一if?0
??K(,)』=1
(8)
C
由?=1,根据拉格朗日方程得到以下无限制方程:i=l
?A(?一1)j:li=l 其中,为拉各朗日系数.
式(9)对,并最终解得:
1
=
r=l
L
?wq~(1一(~Vil,))I=l ,
?以(1一K(xs,,))k:l 同理,由?W=1得到以下的无限制函数:'=l
C,
"=2???以(1一K(,))一…111 C,
?A(?一1)
解得:
1
(1一(,))
(1一(,))
(9)
(10)
(12)
(1),(8),(10),(12)构成了WFKCA聚类算法.
2实例分析
2.1IRIS数据集测试
这个实例中,我们用标准数据集IRIS来测试FCM,
SCAD1,SCAD2和WFKCA算法的性能.IRIS数据集共有150个样本,分成3类,其中,每个样本有4个属性=.,, .,}.设定参数m:2,JB=2,为标准方差.
表1给出了各算法在100次实验中的平均性能,除了 SCAD2外所有算法的起始中心点为随机产生.实验结果发 现,SCAD2对起始中心的选择非常敏感,表1给出了随机选 择中心SCAD2—1以及把FCM迭代10次后的中心点作为起 始中心点的SCAD2_2的性能比较,可以发现,SCAD2_2性能 比SCAD2—1有很大提高.
表l各算法在IRIS标准数据集的性能比较
从表1可以看出,WFKCA最终的聚类结果在四个算法中 是最好的.同时,表1也证明了WFKCA,SCAD1及SCAD2的 算法收敛迭代次数要比FCM少,这和WFKCA,SCAD1和 SCAD2的权重系数在迭代过程中所产生的引导作用密切相关. 2.2高维数据聚类分析
本实例采用文献[11]中鉴别宋代官汝窑器与民汝窑器
. 的数据作为测试数据集,该数据集中每个样本有10个属性表2给出了各算法在100次试验中在该数据集上的平均聚类 结果.从结果可以看出来,WFKCA具有最好的性能.这表明 WFKCA算法在处理高维数据集中同样存在着优势. 表2高维数据各算法性能比较
3结语
传统的聚类算法,如FCM等对于"非团状"的数据集很 难得到理想的聚类结果,主要是由于下面的原因: (1)算法在观察空间中进行聚类分析,对"团状"数据集 有效,但对一些更一般的数据集,特别是高维数据集将不能得 到理想的结果;
(2)传统的聚类算法,如FCM等,忽略了属性间的不平 衡性,而这一点在实际生活中常常存在.
本文基于核函数,将数据集从观察空间映射到高维特征 空间,提出了特征空间中新的属性加权模糊核聚类算法 WFKCA.实验表明,对于一般高维数据集,WFKCA能更好地 反映属性间的不平衡性,并得到很好的聚类结果. (下转第1915页)
一
一
以
?
?
2
=一
,,
扣一
Il
第8期黎升洪等:线性时态逻辑中的特性模式1915 3)将特性LTL公式翻译为一个自动机.
4)计算自动机与全局有限状态自动机的同步积,形成一 个自动机.
5)检查最后这个自动机的语言是否为空.如果为非空,
则所描述的进程满足指定的特性模式. 6)SPIN中,m公式用来描述坏的特性模式,如果自动 机的语言为非空,则知道描述的系统不能满足特性模式要求,
此时可以发现反例,这对调试非常有用. Global
BeforeR
AfterO
BetweenOandR
AfterOuntilR
QQRQ
图2特性作用范围
图3特性模式的分类
这里,给出一个如图3所示的状态图,其对应的SPIN代 码如下所示.
intx=0,Y=0;
prectypopl()I
d0
=atomic【(Y<2)&&(x<3)一>x=x+1)
od1
proctypop2()I
d0
=atomic【(x+y)==3一>x=0) =atomic【(xY)==4一>Y=0) od1
proctypop3()I
d0
=atomic【(Y<2)&&(x<3)一>x=x+1)
od1
initI
runpl();
runp2();
runp3())
在SPIN4.2.5下,分别验证其下列特性:
1)安全性示例:验证系统是否满足L1.L公式口?(+Y)
=1,通过SPIN验证和仿真功能,发现(x,y)的冲突序列为:
(0,0),(1,0),(2,0),(2,1),[(2,2),(0,2),(1,2)]}. 2)活性示例:验证系统是否满足口(2x>Y),通过SPIN
验证和仿真功能,发现冲突序列为:(0,0).
3)响应性示例:验证系统是否满足口((+y=
1)等?(+Y=3),通过SPIN验证功能,特性可满足.
6结语
高层次的定义和抽象是自动编写形式化规格说明的重要
方法,线性时态逻辑特性模式特别适用于有限状态验证工具
SPIN中的规格说明.本文从特性模式的分类和作用范围描
述LTL公式,对自动编写系统规格说明特性有很大帮助,如
文献[7]给出了SPIN中常用的特性模式是其应用的一个方
面.
参考文献:
【11CLARKEEM,SCHLINGLOFFBH.MedelChecking[AI.Handbook ofAutomatedReasoning[C1.BandII,S.Elsevier,2001.1637—
179o.
[21BI~RARDB,BIDOITM,FINKELA.SystemsandSoftwareVerifiea- fion:Model?CheckingTechniquesandTools[MI.Berlin:Springer, 1999.
【31KRIPKESA.Semanticalconsiderationsonmedallogic【J1.Acta
PhilesophieaFenniea,1963,16:83—94.
【41PNUELIA.TheTemporalSemanticsofConcm'rentPrograms【A】.
ProceedingsoftheInternationalSympoisumonSemanticsofConcur-
rentComputation,LectureNotesInComputerScience[C1.Springer-
Verlag,1979,Vol70.
【51BEN—ARIM,PNUELIA,MANNAZ.TheTemporalcofBranch—
ingTime[J1.ActaInformatica,1983,20(3):207—226.
【61EMERSONEA,HALPERNJY."Sometimes"and"NotNever" visited:onbranchingverBuslineartimetemporallogic[J1.Joumal oftheACM,1986,33(1):151—178.
【71HOLZMANNGJ.SpinModelChecker:.ThePrimerandReference Manual[MI.NewYork:AddisonWesley,2003.608.
【81HOLZMANNGJ.Designandvalidationofcomputerprotocols[MI.
78. London:PRENTICE?HALL,1991.22—
【91HOLZMANNGJ.TheModelCheckerSPIN[J1.IEEEtrausactionson softwareengineering,1997,23(5).
(上接第1889页)
参考文献:
H0PPERF.Fuzzyclusteranalysis【M】.Chichester:JohnWiley,
l999.
HANJW,KAMBERM.Datamining:ConceptandTechniques【M】.
SanMatco:MorganKanfnlann,2001.
BEZDEKJC.Patternrecognitionwithfuzzyobjectivefunctionalgo- rithms【M】.NewYork:HenumPress,1981.
沈红斌,王士同.离群模糊核聚类算法【J】.软件,2004,15
(7):1021—1029.
YEUNGDS,WANGXZ.ImprovingPerformanceofSimilarity?Based ClusteringbyFeatureWeiShtLearning【J】.IEEETransactionsOn
队MI,2002,24(4):556—561.
CHANAEY,CHINGAWK.Anoptimizationalgorithmforclustering usingweighteddissimilaritymeas~【J】.PatternRecognition,2004,
37(5):943—952.
【7】FRIGUIH,NASRAOU10.Unsupervisedlearningofprototypesand attributeweights【J】.PatternRecognition,2004,37:567—581.
【8】张莉,周伟达,焦李成.核聚类算法【J】.计算机,2002,25 (6):587—590.
【9】GIROLAMIM.MemerKernel?BasedClusteringinFeatureSpace
【J】.IEEETransactionsonNeuralNe~orks,2O02,13(3):780— 784.
【10】沈红斌,杨杰,王士同.基于信息理论的合作模糊聚类算法研 究【J】.计算机,2005,8:1287—1294.
【ll】王煜,陆文聪.宋代汝窑古瓷的微量元素——支持向量机算法 研究【J】.计算机与应用化学,2OO4,2:191—194.
…
本文档为【特征空间属性加权模糊核聚类算法】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑,
图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。