首页 聚类分析例子

聚类分析例子

举报
开通vip

聚类分析例子例题1:下表是我国16个地区农民在1982年支出情况的抽样调查数据的汇总资料,每个地区都调查了反映每人平均生活消费支出情况的六个指标。试利用调查资料对16个地区进行分类。地区食品衣着燃料住房生活用品及其文化生活服务支他出北京天津河北山西内蒙古辽宁吉林黑龙江上海江苏浙江安徽福建江西山东河南下面用统计学软件SAS(StatisticalAnalysisSystem)datadfdf;inputcity$xlx2x3x4x5x6;cards;beijingtianjinghebeishanxineimengguliaon...

聚类分析例子
快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 1:下 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 是我国16个地区农民在1982年支出情况的抽样调查数据的汇总资料,每个地区都调查了反映每人平均生活消费支出情况的六个指标。试利用调查资料对16个地区进行分类。地区食品衣着燃料住房生活用品及其文化生活服务支他出北京天津河北山西内蒙古辽宁吉林黑龙江上海江苏浙江安徽福建江西山东河南下面用统计学软件SAS(StatisticalAnalysisSystem)datadfdf;inputcity$xlx2x3x4x5x6;cards;beijingtianjinghebeishanxineimengguliaoningjilinheilongjiangshanghaijiangsuzhejianganhuifujianjiangxishandonghenan;run;Aprocclusterdata=dfdfstdouttree=treemethod二evepesudorsq;idcity;run;/*ward离差平方和法war;类平均法ave;重心法cen;最长距离法corn;中间距离法med;最短距离法sin;密度估计法den;极大似然法eml;可变类平均fie;相似分析法mcq;两阶段密度估计two;*/proctreedata二treeout二newgraphicshorizontal;idcity;run;ClusterHistoryNCLClustersJoined—FREQSPRSQRSQPSFPST2NormRMSDist15anhuifujian214hebeihenan213CL14shanxi!312CL15jiangxi311jiangsuzhejiang210CL13neimengg49tianjingshandong28CL9CLll47liaoningjilin2iheilongjCL1245CL8CL764CL5CL6103CL4CLIO142beijingshanghei2¥1CL2CL3160city(1)用统计量(列标题为RS0)用于评价每次合并成NCL个类时的聚类效果。现考察用的值随NCL的变化。比如,在分为四个类之前(NCL>4)的并类过程中疋的减少是逐渐的,改变不大;当分为四个类时的疋=0.697,而下一次合并后分为三个类时居下降较多(R;=0.502),由此可以通过对用统计量的变化分析可得出分为四个类是较合适的。(2)半偏(列标题为SPRSQ)得到。根据半偏的值是上一步骤Cm与该步骤尺爲的差值,故某步骤的半偏值越大,说明上一步骤合并的效果越好,此例半偏代《.最大和次大分别为NC厶=1,3和4,说明根据半偏疋准则分为两个类,四个类和五个类是较合适的。(3)伪F统计量(列标题为PSF)用于评价分为NCL个类的聚类效果。伪休“值越大表示这些观测样品可以显著地分为NC1个类。此例中伪耳“最大和次大分别为NCL=5^2(当NCZX6),说明根据伪F准则分为五个类或两个类较合适的。(4)伪统计量(列标题为吋2)用以评价此步骤合并的效果。由该统计量的定义知,伪尸大表明上一次合并的两个类是很分开的,也就是上依次聚类的效果是好的。此例子中尸最大和次大分别为NC—1,3和4,说明根据伪尸准则分为两个类,四个类和五个类是较合适的。综合分析,认为采用类平均法分类,将16个地区分为两个类或五个类较合适。分为五个类的结果为:{北京},{上海},{天津、山东、江苏、浙江、辽宁、吉林},{黑龙江、安徽、福建、江西},{河北、河南、山西、内蒙};若分为两类,{北京,上海},{天津、山东、江苏、浙江、辽宁、吉林,黑龙江、安徽、福建、江西,河北、河南、山西、内蒙}。类别第一类第二类第三类第四类第五类该类所包含的区域河北河南山西内蒙黑龙江安徽福建江西天津山东江苏浙江辽宁吉林北京上海食品平均消费)衣着平均消费燃料平均消费>住房平均消费生活用品以及其他平均消费文化生活服务支出平均消费<例题2:对305名女中学生测量八个体型指标:xl:身高兀5:体重勺:手臂长兀6:颈围*3上肢长X7:胸围X4:下肢长X8:胸宽相关矩阵如下表。我们用相关系数来度量各对变量之间的相似性。相应于最长距离法,类与类之间的相似系数定义为两类变量间的最小相关系数,每次聚类时合并两个相似系数最大的类。兀1兀2兀3?兀5兀6兀7%>x2A£1兀5<兀6兀7兀&/*用变量聚类过程varclus对变量进行分类*/datajlfx(type=corr);inputidxlx2x3x4x5x6x7x8;_type_二'corr';cards;1•••・•••••••・••4•••••••67;run;procvarclusdata=jlfxmaxc=8outtree=tree;varxlx2x3x4x5x6x7x8;run;proctreedata二tree;run;0NameofVariableorCluster
本文档为【聚类分析例子】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: ¥15.0 已有0 人下载
最新资料
资料动态
专题动态
is_179289
暂无简介~
格式:doc
大小:157KB
软件:Word
页数:10
分类:
上传时间:2020-05-18
浏览量:13