关闭

关闭

关闭

封号提示

内容

首页 第6章.ppt

第6章.ppt

第6章.ppt

上传者: kevin 2011-08-09 评分 0 0 0 0 0 0 暂无简介 简介 举报

简介:本文档为《第6章ppt》,可适用于IT/计算机领域,主题内容包含第章现代数据挖掘技术与发展第章现代数据挖掘技术与发展本章学习目标:()通过知识挖掘系统的体系结构的学习掌握知识发现的定义和知识发现系统的结构。()通符等。

第章现代数据挖掘技术与发展第章现代数据挖掘技术与发展本章学习目标:()通过知识挖掘系统的体系结构的学习掌握知识发现的定义和知识发现系统的结构。()通过现代挖掘技术及应用的学习掌握规则型、神经网络型、遗传算法型、粗糙集型和决策树型现代挖掘技术。()通过知识发现工具与应用的学习掌握知识挖掘工具的系统结构、运用中的问题和知识挖掘的价值。()经过数据挖掘技术的发展的学习了解文本挖掘、Web挖掘、可视化数据挖掘、空间数据挖掘和分布式数据挖掘。现代数据挖掘技术与发展现代数据挖掘技术与发展知识挖掘系统的体系结构现代挖掘技术及应用知识发现工具与应用数据挖掘技术的发展练习知识挖掘系统的体系结构知识挖掘系统的体系结构知识发现的定义知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术所抽取的信息是隐含的、未知的并且具有潜在应用价值。知识发现可看成是一种有价值信息的搜寻过程它不必预先假设或提出问题仍然能够找到那些非预期的令人关注的信息这些信息表示了不同研究对象之间的关系和模式。它还能通过全面的信息发现与分析找到有价值的商业规则。知识发现意味着在数据仓库或数据集市的几千兆、几万兆字节数据中寻找预先未知的商业模式与事实。知识发现系统的结构知识发现系统的结构由知识发现系统管理器、知识库、商业分析员、数据仓库的数据库接口、数据选择、知识发现引擎、知识发现评价和知识发现描述等部分组成(图)。知识发现系统管理器控制并管理整个知识发现过程知识库和商业分析员知识库包含了源于各方面的知识。商业分析员要按一种有效的方式指导关注信息的发现。数据仓库的数据库接口知识发现系统的数据库接口可以直接与数据仓库通信。数据选择确定从数据仓库中需要抽取的数据及数据结构知识发现引擎将知识库中的抽取算法提供给数据选择构件抽取的数据发现评价有助于商业分析员筛选模式选出那些关注性的信息发现描述发现、评价并辅助商业分析员在知识库中保存关注性发现结果以备将来引用,并保持知识发现与管理人员的通信。现代挖掘技术及应用现代挖掘技术及应用规则型现代挖掘技术及应用关联规则的基本概念buys(x,“computer”)=>buys(x,“finacialmanagementsoftware”)age(“”)income(“”)=>buys(x,“highresolutionTV”)布尔关联规则量化关联规则单维规则多维关联多层关联规则单层关联规则age(“”)=>buys(x,“IBMcomputer”)()age(“”)=>buys(x,“computer”)()关联规则的应用目标置信度或正确率可以定义为: () 覆盖率可以定义为“兴趣度”为目标的关联规则关联规则的算法Apriori算法.找出所有支持度大于最小支持度的项集这些项集称为频集包含k个项的频集称为k项集。.使用第步找到的频集产生所期望的规则。Apriori算法的第步采用了递归方法算法表示为L={largeitemsets}产生频繁项集Lfor(k=Lkk)do循环产生频繁项集L直到某个r使Lr为空beginCk=apriorigen(Lk)产生k项集的候选集foralltransactionstDdobeginCt=subset(Ck,t)事务t中包含的候选集forallcandidatescCtdoccountendLk={cCk|ccountminsup}endAnswer=UkLk第步算法较为简单。如果只考虑规则的右边只有一项的情况给定一个频集Y=I,I,I,…,Ik,k,IjI那么只有包含集合{I,I,I,…,Ik}中的项的规则最多有k条。这种规则形如I,I,I,…Ii,Ii…,IkIi,。这些规则置信度必须大于用户给定的最小置信度。由L产生CL关联规则的应用关联规则的应用前件和后件规则中的正确率和覆盖率规划覆盖率和正确率的平衡神经网络型现代挖掘技术神经网络型现代挖掘技术神经网络及其学习方法神经网络的工作过程主要分两个阶段:学习阶段和工作阶段。学习方式则有三种:有教师(监督)学习、无教师(监督)学习和强化学习。神经网络型现代挖掘技术神经网络型现代挖掘技术基于神经网络的数据挖掘()基于自组织神经网络的数据挖掘技术一种无教师学习过程、可以提取一组数据中的重要特征或某种内在知识()模糊神经网络类型数据挖掘技术模糊BP网络、模糊Kohonen聚类网络、模糊推理网络、模糊ART模型等模糊BP网络中样本的希望输出值改为样本相对各类的希望隶属度输出表达方面实现了模糊化而且将样本的隶属度引入了权系数的修正规则中使权系数的修正规则也实现了模糊化。神经网络型现代挖掘技术神经网络型现代挖掘技术后向传播模型(BP,BackPropagation)及其算法具体过程如下:选定p个样本权值初始化(随机生成)依次输入样本依次计算各层的输出求各层的反传误差按权值调整公式修正各权值和阀值按新权值计算各层的输出直到误差小于事先设定阀值变换函数可以采用这样几种:阶跃函数、S型函数、比例函数、符号函数、饱和函数、双曲函数神经网络型现代挖掘技术神经网络型现代挖掘技术神经网络的应用遗传算法型现代挖掘技术遗传算法型现代挖掘技术遗传算法的基本原理达尔文的“适者生存”理论、继承的信息由基因携带、多个基因组成了染色体、基因座、等位基因、基因型和表现型染色体对应的是一系列符号序列通常用、的位串表示进行生物的遗传进化。在这一过程中包括三种演化操作:在父代基因群中的双亲选择操作、两个父代双亲产生子代基因的交叉操作和在子代基因群体中的变异操作。两种数据转换:从表现型到基因型的转换另一种是从基因型到表现型的转换遗传算法实质上是一种繁衍、检测和评价的迭代算法最大优点是问题的最优解与初始条件无关而且搜索最优解的能力极强遗传算法型现代挖掘技术遗传算法型现代挖掘技术遗传算法的处理过程()编码并生成祖先群体要用遗传算法解决问题首先要定义有待解决的问题:F=f(a,b,c),FR,(a,b,c)ΩF=f(a,b,c)是属于实数域R的一个实数也是每一组解(ai,bi,ci)Ω的适应度的度量算法的目标是找一个(ao,bo,co)使F=f(ao,bo,co)取最大值。()计算当前基因群体中所有个体的环境适合度()用适应函数评价每一个体对环境的适应度()选择适应度好的生物个体进行复制()选择适应度好的生物个体进行复制交叉配对繁殖()新生代的变异操作遗传算法型现代挖掘技术遗传算法型现代挖掘技术遗传算法型现代挖掘技术遗传算法型现代挖掘技术遗传算法的应用用四个染色体来定义客户类型:基因:客户的年龄下限基因:客户的年龄上限基因:客户的收入水平基因:客户的人口状况(人口状况可以分成:少(至人)、一般(至人)和多(人以上)三种状况)遗传算法型现代挖掘技术遗传算法型现代挖掘技术所有的生物个体按顺序排放在一张二维表格上使每个生物体的上、下、左、右都与其它生物体相邻接。()竞争复制()杂交繁殖()异变处理粗糙集型现代挖掘技术粗糙集型现代挖掘技术.粗糙集技术粗糙集的应用表中的、、客户的“赞扬竞争对手的产品”属性是相似的、客户的“挑选产品时间很长”和“客户流失”属性是相似的、客户的“赞扬竞争对手的产品”、“挑选产品时间很长”和“距最后一次销售时间”属性是相似的这样围绕“赞扬竞争对手的产品”属性就可以产生两个初等集合:{、、}和{、、}而“赞扬竞争对手的产品”和“挑选产品时间很长”属性可以生成三个初等集合:{、、}、{、}和{}。粗糙集型现代挖掘技术粗糙集型现代挖掘技术因为客户已经流失而客户没有流失由于属性“赞扬竞争对手的产品”、“挑选产品时间很长”和“距最后一次销售时间”是相似的。因此客户流失不能以属性“赞扬竞争对手的产品”、“挑选产品时间很长”和“距最后一次销售时间”作为特征进行描述。而、就是边界实例即它们不能根据有效知识进行适当的分类。余下的客户、和所显示的特征可以将他们确定为已经流失的客户。当然也不能排除和已经流失而毫无疑问没有流失。所以客户集合中“流失”的下近似集合是{、、}上近似集合是{、、、、}。同样没有流失但是不能排除和流失。因此客户“没有流失”概念的下近似是{}上近似是{、、}。决策树型现代挖掘技术决策树型现代挖掘技术.决策树技术ID该算法建立在推理系统和概念学习系统的基础之上基本步骤是。()创建一个节点。如果样本都在同一类则算法停止把该节点改成树叶节点并用该类标记。()否则选择一个能够最好的将训练集分类的属性该属性作为该节点的测试属性。()对测试属性中的每一个值创建相应的一个分支并据此划分样本。()使用同样的过程自顶向下的递归直到满足下面的三个条件中的一个时就停止递归。(a)给定节点的所有样本都属于同一类。(b)没有剩余的属性可以用来进一步划分。(c)继续划分得到的改进不明显。决策树型现代挖掘技术决策树型现代挖掘技术.决策树技术信息增益被定义为原始分割的熵与划分以后各分割的熵累加得到的总熵之间的差。信息增益是指划分前后进行正确预测所需的信息量之差。选择具有最高信息增益的属性作为当前节点的测试属性。一个给定的样本分类所需要的期望信息为由A划分成子集的熵或期望信息是决策树型现代挖掘技术决策树型现代挖掘技术.决策树技术为第j个子集的权等于子集(A值为aj)中的样本数除以S中的样本数。对于给定的子集SjI(sj,sj,…,smj)可用下式计算是Sj中的样本属于类Ci的概率由A划分的信息增益是Gain(A)=I(s,s,…,sm)E(A)决策树型现代挖掘技术决策树型现代挖掘技术决策树的应用决策树型现代挖掘技术决策树型现代挖掘技术决策树型现代挖掘技术决策树型现代挖掘技术“年龄”在各个属性中具有最大的信息增益所以选择“年龄”属性作为第一个测试属性创建一个节点用“年龄”标记。计算剩余各个属性的相应的信息增益选择信息增益最大的属性作为测试属性这时信息增益最大的是“学生”属性创建一个节点用“学生”标记。知识发现工具与应用知识发现工具与应用知识挖掘工具的系统结构无耦合(nocoupling)DM系统不利用DB或DW系统的任何功能松散耦合(loosecoupling)DM系统将使用DBDW的某些工具半紧密耦合(semitightcoupling)DM系统连接到一个DBDW系统一些基本数据挖掘原语可以在DBDW系统中实现。紧密耦合(tightcoupling)DM系统被平滑地集成到DBDW系统中知识发现工具与应用知识发现工具与应用知识挖掘工具运用中的问题数据挖掘技术应用中的共性问题()数据质量()数据可视化()极大数据库(vLDB)的问题()性能和成本()商业分折员的技能()处理噪声和不完全数据()模式评估兴趣度问题知识发现工具与应用知识发现工具与应用知识挖掘工具运用中的问题数据挖掘技术应用中的个性问题()规则归纳应用中的问题主要用于显式描述数据抽取的规则、找到所有的规则工作量是巨大的()神经网络应用中的问题受训练过度的影响、神经网络的训练速度问题()遗传算法应用中的问题知识发现工具与应用知识发现工具与应用知识挖掘的价值了解商业活动发现商业异常预测模型现代数据挖掘工具简介DBMiner的体系结构DBMiner的数据挖掘类型数据挖掘技术的发展数据挖掘技术的发展文本挖掘文本分析和语义网络文本分析语义网络文本挖掘文本总结基于关键字的关联分析文档分类分析文档聚类分析文本挖掘的应用数据挖掘技术的发展数据挖掘技术的发展Web挖掘技术Web的特点Web内容挖掘基于文本信息的挖掘基于多媒体信息的挖掘Web结构挖掘Web使用记录的挖掘数据预处理阶段模式识别阶段模式分析阶段Web数据挖掘的应用数据挖掘技术的发展数据挖掘技术的发展可视化数据挖掘技术数据的可视化可视化数据挖掘技术数据可视化数据挖掘结果可视化数据挖掘过程可视化交互式可视化数据挖掘数据挖掘技术的发展数据挖掘技术的发展空间数据挖掘地理信息系统地理信息系统概念地理信息系统的特点数据挖掘技术和地理信息系统相结合地理信息系统的数据挖掘特点图形化数据挖掘图形化统计查询图形化报表输出专业的地理分析功能空间数据挖掘空间数据挖掘用途数据挖掘技术的发展数据挖掘技术的发展分布式数据挖掘分布式数据挖掘适合水平式数据划分的分布式挖掘方法数据挖掘技术的发展数据挖掘技术的发展分布式数据挖掘适合垂直式数据划分的分布式数据挖掘方法练习练习知识挖掘系统的结构包括哪几个部分?它们是如何相互配合完成知识发现的?现有某企业的员工数据库数据已经概括处理其中的合计数为对应所给定的部门、职务、年龄和工资值的人数。练习练习针对本表设计一个遗传算法分析员工的年龄、部门与工资的关系。()利用粗糙集技术对本表的数据进行分析讨论可能会得到什么结论。在超市中的商品价格都是大于等于零的超市的总经理只关心如何利用送一件免费商品而带来元以上的总销售量。讨论如何挖掘这种商业模式。练习练习现在需要购买一个商品化的数据挖掘工具从多角度对其进行分析例如可以处理的数据类型、系统的体系结构、数据源、数据挖掘功能、数据挖掘方法、与数据仓库的耦合情况、用户的图形界面等。对该系统进行一个实际的评价并描述一下其具体的实现方法。遗传算法的主要思路是什么?其中的变异操作有什么作用?

用户评论(0)

0/200

精彩专题

上传我的资料

每篇奖励 +2积分

资料评价:

/41
0下载券 下载 加入VIP, 送下载券

意见
反馈

立即扫码关注

爱问共享资料微信公众号

返回
顶部