关闭

关闭

关闭

封号提示

内容

首页 第5章.ppt

第5章.ppt

第5章.ppt

上传者: kevin 2011-08-09 评分 0 0 0 0 0 0 暂无简介 简介 举报

简介:本文档为《第5章ppt》,可适用于IT/计算机领域,主题内容包含第章传统数据挖掘技术第章传统数据挖掘技术传统的统计分析类数据挖掘技术统计分析类工具统计分析类工具的应用统计分析类工具应用的问题练习传统的统计分析类数符等。

第章传统数据挖掘技术第章传统数据挖掘技术传统的统计分析类数据挖掘技术统计分析类工具统计分析类工具的应用统计分析类工具应用的问题练习传统的统计分析类数据挖掘技术传统的统计分析类数据挖掘技术统计与统计类数据挖掘技术.统计与数据挖掘统计推断分析.统计类数据挖掘技术传统的统计分析类数据挖掘技术传统的统计分析类数据挖掘技术数据的聚集与度量技术常用的聚集函数例如count()、sum()、avg()、max()、min()等数据中心趋势度量可以采用算术平均值加权算术平均值。柱状图数据挖掘技术柱状图数据挖掘技术柱状图数据挖掘技术柱状图数据挖掘技术线性回归数据挖掘技术线性回归数据挖掘技术线形回归是最简单的回归形式。双变量回归将一个随机变量Y(称作响应变量)看作为另一个随机变量x(称为预测变量)的线形函数即Y=αβx()α=β非线性回归数据挖掘技术非线性回归数据挖掘技术双曲线模型二次曲线模型对数模型三角函数模型指数模型幂函数模型修正指数增长曲线聚类数据挖掘技术聚类数据挖掘技术聚类分析原理聚类数据挖掘技术聚类数据挖掘技术聚类分析原理“孤立点”或“奇异点”“欧几里得距离”“曼哈顿距离”“明考斯基距离”分层聚类BIRCH算法主要分两个阶段进行:阶段一:扫描数据库建立一个初始的CF树看作一个数据的多层压缩试图保留数据内在的聚类结构。当一个对象被插入到最近的叶节点(子聚类)中时如果在插入对象后存储在叶节点中子聚类的直径大于阀值那么该叶节点被分裂也可能有其他节点被分裂。新对象插入后关于该对象的信息向根节点传递。通过修改阀值CF树的大小可以改变。阶段二:采用某个聚类算法对CF树的叶节点进行聚类。BIRCH算法具有可伸缩性通过对数据集的首次扫描产生一个基本聚类二次扫描则进一步改进聚类质量并处理孤立点。BIRCH算法处理速度较快只是对非球形簇处理效果不好。CURE算法的主要步骤如下:从源数据集中抽取一个随机样本S。将样本S划分为一组划分。对每个划分进行局部的聚类。通过随机抽样剔除孤立点。如果一个簇增长太慢就删除该簇。对局部的簇进行聚类。落在每个新形成的簇中的代表点根据用户定义的收缩因子收缩或向簇中心移动。这些点代表了簇的形状。用相应的簇标签来标记数据。划分聚类k平均算法最为简单。每个簇用该簇中对象的平均值来表示。首先将所有对象随机分配到k个非空的簇中。计算每个簇的平均值并用该平均值代表相应的簇。根据每个对象与各个簇中心的距离分配给最近的簇。然后转第二步重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数才停止。k中心点算法每个簇用接近聚类中心的一个对象来表示。首先为每个簇选择一个代表对象剩余的对象根据其与代表对象的距离分配给最近的一个簇。然后反复用非代表对象代替代表对象以提高聚类的质量。密度聚类DBSCAN算法首先需要用户给定聚类对象的半径ε邻域和ε邻域中最少要包含的对象数MitPts。然后算法检查某个对象ε邻域中的对象数如果对象数大于MitPts该对象就是核心对象就构建以该对象为核心的新簇。然后反复寻找从这些核心对象出发在ε邻域内的对象这个寻找过程可能会合并一些簇直到没有新的对象可以添加到任何簇中为止。密度聚类OPTICS算法是对DBSCAN算法的改进因为在DBSCAN算法中需要用户设定ε邻域和MitPts但是在实际应用中用户往往很难确定这些参数而且这些参数设置的不同往往会导致聚类结果有很大差别。在OPTICS算法中认定对象应该以特定的顺序进行处理这个顺序首先处理最小的ε值密度可达的对象这样可以首先完成高密度的聚类。密度聚类DENCLUE算法的依据是某个数据点在邻域内的影响可以用一个数学函数来形式化地模拟这个函数为影响函数。所聚类数据空间的整体密度看成是所有数据点影响函数的总和。在聚类时就根据全局密度函数的局部最大即密度吸引点来确定。网格聚类STING算法将数据空间区域划分为矩形单元并且对应于不同级别的分辨率存在着不同级别的矩形单元高层的每个单元被分为多个低一层的单元每个网络单元的统计信息被预先计算和存储供处理和查询使用。网格聚类利用STING算法可以自顶向下回答查询:从层次中选定一层(含较少单元的层次)作为查询处理的开始。对当前层次的每个单元计算置信区间用以反映该网格单元与给定查询的关联程度。当前层次处理完毕转入下一层次处理下一层次时只检查处理相关单元。重复以上过程直到底层处理完毕。如果查询要求满足就返回相关单元的区域否则检索和进一步处理相关单元中的数据直到满足查询要求为止。网格聚类WaveCluster方法首先通过在数据空间上强加一个多维网格结构来汇总数据每个网格单元汇总了一组映射到该单元中的点的信息然后采用一种小波变换对原特征空间进行变换汇总信息在进行小波变换时使用接着在变换后的空间中找到聚类区域。小波变换的聚类是无监督聚类不用事先假定聚类的形状可以发现任意形状的聚类边界弱信号不会被屏蔽可以剔除孤立点本身运算开销不大。网格聚类基于网格和密度的聚类CLIQUE算法主要步骤是:将数据空间划分为互不相交的长方形单元记录每个单元中的对象数。用先验性质识别包含簇的子空间。在符合兴趣度的子空间中先找出密集单元再找出相连接的密集单元以识别簇。为每个簇生成最小化的描述。最近邻数据挖掘技术基本概念是:相互之间“接近”的对象具有相似的预测值。如果你知道了其中一个对象的预测值后就可以用它来预测其最近的邻居对象。最近邻数据挖掘技术统计分析类工具统计分析类工具统计类数据挖掘工具SAS和SPSS许多数据挖掘工具中都使用了这样一些统计分析过程:决策树推断(C、CART)、规则推断(AQ、CN、RECON)、最近邻方法、聚类方法、关联规则、特征提取和可视化等。统计类数据挖掘的商业分析统计类数据挖掘的商业分析统计分析工具已经开始为商业分析人员所采纳和应用处于知识发现工具和信息处理工具之间的数据挖掘工具统计类数据挖掘工具可以完成信息的分析处理并能进一步进行商业活动的统计分析统计类数据挖掘工具的功能统计类数据挖掘工具的功能可视化功能探索功能统计功能和操作数据管理功能显示功能挖掘结果描述功能开发工具可接受的响应时间统计类数据挖掘工具SPSS统计类数据挖掘工具SPSS统计类数据挖掘工具SPSS统计类数据挖掘工具SPSS统计类数据挖掘工具SPSS统计类数据挖掘工具SPSS统计类数据挖掘工具SPSS统计类数据挖掘工具SPSS基本统计分析报告分析通过命令“Analyze”“Report”可以启动联机分析处理(OLAPCubes)、观察值摘要分析(CasesSummary)、行式摘要报告(ReportSummariesinRows)和列式摘要报告(ReportSummariesinColumns)等分析。描述性统计分析可以通过“Analyze”“DescriptiveStatistics”启动频数分析(Frequencies)、描述形统计量分析(Descriptives)、探索分析(Explore)和多维频数分布列联表(Crosstabs)。统计类数据挖掘工具SPSS统计类数据挖掘工具SPSS回归分析线性回归分析(Linear)、曲线回归分析(CurveEstimation)、二维logistic回归分析(BinaryLogistic)、多维logistic回归分析(MultinomialLogistic)、Ordinal回归分析(Ordinal)、概率单位回归分析(Proibit)和非线性回归分析(Nonlinear)等统计分析。这些回归分析均在“Analyze”“Regression”菜单项中启动。相关分析相关分析(Bivariate)、偏相关分析(Partial)和距离分析(Distances)等数据分析功能。相关分析的启动需要使用命令“Analyze”“Correlate”。统计类数据挖掘工具SPSS统计类数据挖掘工具SPSS分类分析快速样本聚类(KMeansCluster)、层次聚类(HierarchicalCluster)和判别分类(Discriminant)。这些分类方法均可在命令“Analyze”“Classify”下启动。因子分析用“Analyze”“DataReduction”“Factor”命令可以进行因子分析。统计分析类工具的应用统计分析类工具的应用趋势分析时序分析周期分析统计分析类工具应用的问题统计分析类工具应用的问题统计类数据挖掘的预处理问题空缺值处理()忽略元组()人工填写空缺值()使用一个全局变量填充空缺值()使用属性的平均值填充空缺值()使用最可能的值填充空缺值练习练习在某一数据库中有不同元组值是:、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、。该系列数据的count、sum、avg、max、min分别是多少?另外给出其它三个本章没有介绍的常用数据统计度量值。给定两个对象分别用元组()和()描述计算这两个对象之间的曼哈顿距离、欧几里得距离和明考斯基距离明考斯基距离的q值为。聚类是一种重要的数据挖掘技术请讨论将聚类作为主要数据挖掘方法应用的情况将聚类作为作为其它数据挖掘的数据准备情况。在靠近一个新数据点的个相邻点中个属于m类个属于n类个属于k类这个新数据点最有可能属于哪一类。对第一题中的数据按照箱平滑方法进行数据平滑处理箱的深度为。除本章所介绍的对数据平滑方法外还有其它哪些数据平滑方法?

用户评论(0)

0/200

精彩专题

上传我的资料

每篇奖励 +2积分

资料评价:

/35
0下载券 下载 加入VIP, 送下载券

意见
反馈

立即扫码关注

爱问共享资料微信公众号

返回
顶部