基于 K- m e a n s 算法和 F C M 算法的聚类研究(1)

基于 K- m e a n s 算法和 F C M 算法的聚类研究(1) 现代计算机 (总第二六九期 ) MODERN COMPUTER2007.10 研究与开发 0 引言随着计算机的发展和实际问题的需要,基于目标函数的聚类方法已成为聚类分析的主流。这一方面是由于将聚类问题表述成优化问题易于与经典数学的非线性规划领域联系起来,可用现代数学方法来求解。另一方面是由于算法的求解过程比较容易用计算机来实现。 1 K-means算法的原理 K-means算法的工作原理:算法首先随机从数据集中选取K个点作为初始聚类中心,然后计算各个样...

现代计算机 (总第二六九期 ) MODERN COMPUTER2007.10 研究与开发 0 引言随着计算机的发展和实际问题的需要,基于目标函数的聚类方法已成为聚类分析的主流。这一方面是由于将聚类问题表述成优化问题易于与经典数学的非线性规划领域联系起来,可用现代数学方法来求解。另一方面是由于算法的求解过程比较容易用计算机来实现。 1 K-means算法的原理 K-means算法的工作原理:算法首先随机从数据集中选取K个点作为初始聚类中心,然后计算各个样本到聚类中心的距离,把样本归到离它最近的那个聚类中心所在的类。计算新形成的每一个聚类的数据对象的平均值来得到新的聚类中心,如果相邻两次的聚类中心没有任何变化,说明样本调整结束,聚类准则函数Jc已经收敛。本算法的一个特点是在每次迭代中都要考察每个样本的分类是否正确。若不正确, 就要调整,在全部样本调整完后,再修改聚类中心,进入下一次迭代。如果在一次迭代算法中,所有的样本被正确分类,则不会有调整,聚类中心不会再有变化。 K-means聚类算法的步骤为(如图 1所示)。输入n个数据对象集合Xi;输出k个聚类中心Zj 及K个聚类数据对象集合Cj。 ProcedureK-means(s,k) S={x1,x2,⋯ ,xn}; m=1;forj=1tok初始化聚类中心Zj; do { fori=1ton forj=1tok { D(Xi,Zj)=|Xi-Zj|;ifD(Xi,Zj)Min{D(Xi,Zj)} thenXi∈Cj; }//归类 ifm=1thenJc(m)=∑kj=1∑ |Xi-Zj|2 m=m+1;forj=1tok Zj=(∑ni=1(Xi)j)/n;//重置聚类中心 }while|Jc(m)-Jc(m-1)|>ξ 图1K-means聚类过程 2 FCM算法的原理由于 FCM算法中 m的选择必须与所应用的数据集相关联,没有一个通用的对任何数据都合理的m 值。对每个数据集,应该根据数据集本身选择合理的权指数。下面,根据上面讨论的权指数m的选择方法给出一种实现FCM算法的具体方式,步骤如下: (1)选定将要聚类的数据集D; 基于K-means算法和FCM算法的聚类研究崔文迪 , 蔡佳佳 (厦门大学信息学院计算机系,厦门 361005) 摘要: 关键词:模糊聚类;K-means;FCM 采用 K-means算法和 FCM算法实现对 47个城市竞争力的聚类分析,选择较为简便的聚类有效性函数用于聚类结果的检验,得到了两种有效的聚类算法的实现方式,并验证该方法的合理性。收稿日期:2007-07-19 修稿日期:2007-09-05 作者简介:崔文迪(1983-),男,福建厦门人,硕士,研究方向为语音识别 ! MODERN COMPUTER 2007.10 现代计算机 (总第二六九期 ) 研究与开发 (2)根据数据集D计算: Cx= n k=1 !(xk-x")(xk-x")T n||xk-x"||2 并求出Cx的最大特征值λmax(Cx); (3)如果 λmax(Cx)<0.5则取 m≤ 1 1-2λmax(Cx) ;如果λmax(Cx)≥0.5则该方法无法确定合适的 m,需由用户来确定m的值; (4)根据选定的m用FCM算法对数据集D聚类。图2FCM聚类过程 3 算法实验及其结果 3.1数据处理及其标准化本实验的数据来源于网上收集的47个城市的竞争力指标。该表格中包含有人才竞争力、资本竞争力、科学技术竞争力、结构竞争力、基础设施竞争力、区位竞争力、环境竞争力、文化竞争力、制度竞争力、政府竞争力、企业管理竞争力和开放竞争力等12个字段。其中前7个为硬竞争力指标,其余为软竞争力指标。图3城市竞争力指标 3.2实验工具本实验采用 MicrosoftVisualC#连接 Access数据库的方法编程实现的聚类分析功能,基本界面如图 4所示。 3.3实验结果实验取了人力竞争力分别用 K-means与 FCM 算法进行聚类,聚类的结果如下: ●K-means: 第 0类:重庆成都福州宁波青岛西安苏州第 1类:深圳杭州南京武汉天津第 2类:济南郑州石家庄哈尔滨长沙合肥长春沈阳南昌第 3类:南通昆明烟台徐州秦皇岛泉州威海珠海第 4类:常州大连无锡厦门海口第 5类: 第 6类:佛山东莞温州中山绍兴嘉兴惠州台州湖州舟山第 7类:北京上海广州图4VC#聚类界面设计表1K-means聚类分布结果 ●FCM: 第 0类: 第 1类:北京上海深圳杭州广州重庆成都南京武汉福州宁波哈尔滨青岛西安苏州天津大连沈阳第 2类:郑州石家庄长沙合肥常州佛山东莞长春南通温州昆明烟台徐州南昌中山厦门绍兴秦皇岛嘉兴泉州惠州台州威海珠海海口湖州舟山第 3类: 第 4类:无锡第 5类: 第 6类: ! 现代计算机 (总第二六九期 ) MODERN COMPUTER2007.10 研究与开发 ResearchonClusterBasedon K-meansAlgorithmandFCMAlgorithm CUIWen-di , CAIJia-jia (DepartmentofComputerScience,XiamenUniversity,Xiamen361005) Abstract: Keywords:FuzzyClusterAnalysis;K-meansAlgorithm;FuzzyC-Means(FCM)Algorithm Proposesaneffectiveimplementmethodoftheclusteranalysisforcompetitivepoweron47 citiesbyFuzzyC-Means(FCM)algorithmandK-meansalgorithm,selectsaclusteringva- lidityfunctionforvalidatingtheresultsoftheclustering,validatestheeffectivenessofthis methodbyexperiments. 第 7类:济南表2FCM聚类分布结果从以上几个图表中可得,在定义将47个城市分为5类时,采用K-means算法能很好地分成5类,每一类型中都有相应的城市,总体上分配比较均匀,而采用FCM算法则出现0类和4类都是空类的现象。 FCM算法的实现大多采用由用户根据经验或实验来确定FCM算法中的所有参数,然后用选定的参数值运行FCM算法实现聚类。但是,由于缺乏理论指导,这种启发式的FCM算法实现往往需要进行较长的时间才能产生令人满意的聚类结果。以下是不同模糊度聚类的结果,从表中数据可得,当模糊度指数在一定范围内取值时,随着模糊度指数的增加,分类数量也明显增加,聚合的能力下降,尽管有些情况下分类数目相同,但详细信息中各分类的具体城市也有所不同,由此可知在运用FCM算法实现多城市的竞争力分析时模糊度指数是一个很关键的参数。 4 结语本文分析了K-means算法与FCM算法的原理及实现过程,并且通过实例数据演示了他们在聚类过程中的特点。根据实验结果分析,K-means算法对聚类的分布实现更为精确,但存在着产生孤立点敏感问题,而 FCM算法对聚类的均匀分布效果不好,而且, 在FCM算法中模糊度指数需用户自己定义,因此在没有经验的情况下效果也可能比较不好。参考文献 [1]JiaweiHan.数据挖掘:概念与技术.范明,孟小峰等译. 北京.机械工业出版社,2001 [2]石洪波,于剑,黄厚宽等.一种有效的 FCM算法的实现方式.北京:北京交通大学 [3]RAgrawal,TImielinski,ASwami.MiningAssociation RulesBetweenSetsofItemsInLargeDatabase.Proc.ACM SIGMDO.Apr.1993:207~216 [4]孙才志,王敬东,潘俊.模糊聚类分析最佳聚类数的确定方法研究.模糊系统与数学,Vol.15.No.1.Mar.2001:53~56 [5]李昕,郑宇,江芳泽.用改进的 RPCL算法提取聚类的最佳数目.上海大学学,Vol.5.No.5.Oct.1999:120~122 [6]XuL,KrzyzakA,OjaE.RivalPenalizedCompetitiveLear- ningforClusteringAnalysisRBFNetandCurveDetection. IEEETransactionsonNeuralNetworks,Apr.1993:636~649 [7]唐立新,杨自厚,王梦光.用遗传算法改进聚类分析中的 K-平均算法.数理统计与应用概率,Vol.12.No.4.Dec.1997: 45~48 [8]KhaledAlsabti,SanjayRanka,VineetSingh.AnEfficient K-meansClusteringAlgorithm,Vol.24.Issue7.July.2002: 65~72 [9]Danpelleg,AndrewMoore.AcceleratingExactK-means AlgorithmswithGeometricReasoning.CMU.CS.Jan,2000: 105 !

                    本文档为【基于 K- m e a n s 算法和 F C M 算法的聚类研究(1)】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

基于 K- m e a n s 算法和 F C M 算法的聚类研究(1)

你可能还喜欢