首页 Kmeans应用与特征选择

Kmeans应用与特征选择

举报
开通vip

Kmeans应用与特征选择    Kmeans应用与特征选择    柏宇轩在各行各业发展中,都积累了大量的数据,而数据往往是没有先验标签的,我们需要在数据中自动发现规律,例如自动发现数据中有哪几类,每一类有什么性质。而kmeans聚类算法就是针对这一类问题的有效解决方案。本文中,我们介绍了kmeans的方法,并且进行了实验,着重讨论了质心初始点的选取方式和聚类特征的选取方式,最终验证了kmeans算法的有效性。【Key】人工智能 机器学习 数据挖掘 聚类 kmeans1 引言近些年来,机器学习的发展日...

Kmeans应用与特征选择

 

 

Kmeans应用与特征选择

 

 

柏宇轩

在各行各业发展中,都积累了大量的数据,而数据往往是没有先验标签的,我们需要在数据中自动发现规律,例如自动发现数据中有哪几类,每一类有什么性质。而kmeans聚类算法就是针对这一类问题的有效解决方案。本文中,我们介绍了kmeans的方法,并且进行了实验,着重讨论了质心初始点的选取方式和聚类特征的选取方式,最终验证了kmeans算法的有效性。

【Key】人工智能 机器学习 数据挖掘 聚类 kmeans

1 引言

近些年来,机器学习的发展日新月异,机器学习的两大问题:分类和聚类也不断有新的算法来填充。而对于大量样本的数据,由于人工标注成本很高,经常是没有标签的数据,需要用聚类算法来发现数据中有几类,每一类是什么样,有什么性质,各类之间的关系是什么样。Kmeans是聚类算法中简单有效的一种,也称为k均值算法。

本文先介绍kmeans聚类的方法,包括主要思想和具体步骤;然后把算法应用在鸢尾花数据集上,并且改变特征的数量,来看对聚类结果的影响;接着,本文对kmeans算法的优缺点进行了讨论,并和其他算法进行比较,还介绍了该算法在使用时候需要注意的问题;最后,我们根据实验结果 总结 初级经济法重点总结下载党员个人总结TXt高中句型全总结.doc高中句型全总结.doc理论力学知识点总结pdf 结论,得出kmeans是有效的一种聚类算法,并且特征的选择会对聚类结果产生很大影响。

2 方法

Kmeans的主要思想是将离散的许多数据点利用k个质心进行聚类,分成k簇来区分相似性较小的数据点,并把相似性较大的数据点归为一类。该方法利用不断更新数据点的质心归属和质心的位置来最终收敛到最优解。

Kmeans有四个主要步驟:

(1)利用kmeans++在n个数据点中取k个质心:普通kmeans算法中,是随机选取k个数据点最为初始的质心,但这样的结果可能会导致聚类迭代的过程中收敛速度慢或者收敛到局部最优的结果。Kmeans++成功解决了这个问题,它改进了质心初始化的方法:首先随机选取一个数据点作为第一个质心,接着,选取距离第一个点最远的数据点作为第二个质心,再接着选取距离第一个和第二个质心距离之和最大的数据点最为第三个质心,以此类推,选取出k个初始质心点。

(2)把所有数据点都归属到离它最近的质心,并且标为相应的类别号,从而把所有数据点分成k个簇。此处的距离通常选择欧式距离。

(3)在各个簇内部求均值确定新的质心。

(4)重复第2,3步骤直到各个数据点的归属不变或者达到提前设定迭代次数。

3 实验

在介绍完kmeans的方法之后,我们找了真实的数据集来做算法实验。我们使用的数据集是sklearn机器学习库里面的datasets子库中的鸢尾花(iris)数据,共包括150个花的数据,每个数据有四个属性(特征),分别是花萼长度,花萼宽度,花瓣长度,花瓣宽度。然后,我们选取不同的特征对花进行聚类,首先我们选择花萼长度,花萼宽度作为特征聚类,然后我们选择花瓣长度,花瓣宽度进行聚类,最后,我们一起用四个特征进行聚类,比较聚类结果。

对于质心初始化方法,我们采用kmeans++中的初始化方法代替随机选取初始质心的方法。

对于聚类的个数,我们分别设为2,3,4来进行实验,观察实验结果,通过可视化方法,判断设为几类才是最合适的。

4 结果展示

我们用散点图标注每个数据点,并且用颜色(红,蓝,绿,黄)区分它所属的类别,来观察数据点在特征空间的分布,判断聚类结果十分合理。在每个图中,横坐标代表花某一部分的长度,纵坐标代表花某一部分的宽度,坐标轴的单位都是厘米,每一种颜色是一簇。

首先我们仅用花萼长度,花萼宽度来聚类,聚类的类别个数分别设定为2,3,4,对应从左到右三个图。可以看出花萼长度和宽度的数据分布没有特别明显的簇状分布,所以类别个数分为2,3,4看起来都有一定道理。

然后,我们用花瓣长度,花瓣宽度来聚类,聚类的类别个数分别设定为2,3,4,对应从左到右三个图。我们能看到很明显有两簇数据点分布较远,中间隔着很大距离,即画面左下角的簇和画面中间到右上角的簇,故聚类类数选为2比较合理。此时,虽然聚成两类有一个数据点被误判,但大体能区分这两部分,也是可取的。

最后,我们用花萼长度,花萼宽度,花瓣长度,花瓣宽度四个属性共同去对花进行聚类,也就是这四个特征都会影响到聚类结果。在这里,特征空间维度数是4,所以我们分为两个2维平面来进行可视化,即花萼的长度宽度和花瓣的长度宽度这两张图。对比第一行和第三行图,我们发现,相比之下,第三行图中聚类的界限不是那么清晰,这是因为另外两个维度也起到了影响聚类的效果。同样,对比第二行和第四行的图,我们也能得到类似的结论。 在用四个特征共同聚类的时候,我们发现聚成三类的结果较为合理,每一簇的大小比较均匀。

5 讨论

Kmeans作为应用很广泛的聚类算法,有着很多其他算法无法比拟的优点,又有一些待改进的缺点。

其主要优点有:

(1)我们可以用每一类的质心来简单的表征这一类的性质,因为质心实际上可以看做是这一类中最有代表性的点。通常的聚类算法只给出每个点的类别属性,但并没有一个量能直接反应出每一类的特性。

(2)该算法不需要先验知识,也就是我们在初始化过程中,默认每个点属于每一类的先验概率都是相同的。

(3)算法思想简洁且步骤易懂。

主要缺点有:

(1)由于在对每个数据点去进行质心的归属判断的时候,判定归为聚类最近的质心,所以导致每个簇的形状都是近似圆形的。例如,对于每一类都是狭长分布的情况,kmeans并不能给出很好的聚类效果。

(2)对异常值敏感,其原因和上一条相同,当有离簇较远的点时,聚类效果会有所下降。

在我们使用kmeans时,需要注意每一类质心初始化使用kmeans++都会对最终聚类效果和聚类效率都有好处。在确定聚类的个数时,我们可以选取特定的数学指标或者多尝试并且根据可视化效果判断聚成几类最合适。

6 结论

综上所述,kmeans是一种聚类的基本方法,由于kmeans聚类方法的特殊性,初始值的选择对聚类结果影响很大。因此在聚类时需要注意的是初始点的选择需要用kmeans++,这样能提高聚类效率与聚类的效果。

在聚类过程中,特征的选择也尤为重要,实际上,特征的选择也就是选择用什么来区分数据点,不同特征得到的聚类结果也有着不同的物理含义,比如用花萼的属性聚类可以看做区分花萼,而用花萼花瓣的属性(属性更全)共同聚类可以看做是区分花本身。

总而言之,kmeans通常能取得较好的聚类效果,在优化初始化质心的方法并认真进行特征选择后,聚类效果能得到进一步提升。

Reference

[1]http://scikit-learn.org/stable border="1"/modules/generated/sklearn.datasets.load_iris.html.

[2]Arthur,David,and Sergei Vassilvitskii."k-means++:The advantages of careful seeding." Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms.Society for Industrial and Applied Mathematics,2007.

[3]Dash,Manoranjan,and Huan Liu. "Feature selection for clustering." Pacific-Asia Conference on knowledge discovery and data mining.Springer, Berlin,Heidelberg,2000.

[4]陈祖耀.聚类特征选 擇方法的研究和应用[D].Diss,江南大学,2009.

作者单位

株洲市长鸿实验学校 湖南省衡阳市 421008

 

-全文完-

本文档为【Kmeans应用与特征选择】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
资教之佳
暂无简介~
格式:doc
大小:29KB
软件:Word
页数:7
分类:互联网
上传时间:2023-11-27
浏览量:2