首页 数据挖掘算法

数据挖掘算法

举报
开通vip

数据挖掘算法null第五章 数据挖掘算法第五章 数据挖掘算法第5章 数据挖掘算法第5章 数据挖掘算法5.1 数据挖掘概述 5.1.1 数据挖掘的演变 5.1.2 数据挖掘的分类 5.1.3 常用数据挖掘模式与工具 5.2 数据挖掘中的关联、挖掘公式和聚类 5.2.1 关联规则 5.2.2 数据挖掘公式 5.2.3 数据聚类null5.3 数据挖掘常用算法 5.3.1 数据挖掘的集合论法 5.3.2 数据挖掘的...

数据挖掘算法
null第五章 数据挖掘算法第五章 数据挖掘算法第5章 数据挖掘算法第5章 数据挖掘算法5.1 数据挖掘概述 5.1.1 数据挖掘的演变 5.1.2 数据挖掘的分类 5.1.3 常用数据挖掘模式与工具 5.2 数据挖掘中的关联、挖掘公式和聚类 5.2.1 关联规则 5.2.2 数据挖掘公式 5.2.3 数据聚类null5.3 数据挖掘常用算法 5.3.1 数据挖掘的集合论法 5.3.2 数据挖掘的决策树法 5.3.3 数据挖掘的遗传 5.4 神经网络与专家系统 5.4.1 神经网络 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 5.4.2 专家系统 5.1 数据挖掘概述5.1 数据挖掘概述 数据挖掘技术是人们长期对数据库技术进行研究和开发的成果。数据挖掘和知识发现源于人工智能的学习,并在20世纪80年代有了长足的进展。目前,数据挖掘技术已经在市场分析、政府管理、医疗卫生、科学探索、金融及制造业得到应用并取得了一定的实效。null 数据挖掘的目标是支持利用数据进行合理的决策。数据挖掘可以与数据仓库结合起来帮助实现某些类型的决策。 5.1.1 数据挖掘的演变5.1.1 数据挖掘的演变1.数据挖掘技术的发展 (1)数据挖掘产生的背景 是四个方面的原因促进了数据挖掘技术产生、发展和应用。 A.大容量数据库的出现。 B.先进计算机技术应用。 C.现代化经营管理的需要。 D.对数据挖掘精、深能力的要求。null因此说,数据挖掘技术是信息技术发展到一定程度的必然结果。 (2)数据挖掘技术的发展历程 数据挖掘的核心模块技术历经了数十年的发展。数据挖掘其实也是一个逐渐演变的过程。 KDD泛指所有从源数据中发掘模式或联系的方法,常用来描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析。 null演变阶段商业问题支持技术产品厂家产品特点数据搜集(20 世纪60年代)数据访问(20 世纪80年代)数据仓库决策 支持(20世纪 90年代数据挖掘(正 在流行)“过去五年中整个有关 联锁超市总收入是 多少?”“联锁超市第一分部去 年三月的销售额是 多少?”“联锁超市第一分部去 年三月的销售额是多 少?第二分部据此可 得出什么结论?”“下个月第二分部的销售 会怎么样?为什么?”计算机、磁带和磁盘关系数据库 (RDBMS),结论化 查询语言(SQL), ODBCOLAP、多维数据库和 数据仓库高级算法、多处理器 计算机和海量数据库IBM和CDCOracle、Sybase 、Informix、 IBM和 MicrosoftPilot、Comshare 、Arbor、 Cognos和 MicrostrategyPilot、Lockheed 、IBM、SGI 和其他初创公司提供历史性的静态 的数据在记录级提供历史性 动态数据在各种层次上提供 回溯的动态数据提供预测性信息表5-1 数据挖掘的演变进程2.对数据挖掘技术的定义2.对数据挖掘技术的定义 (1)对数据挖掘的技术定义 从技术角度看,数据挖掘就是应用一系列技术从大型数据库或数据仓库的数据中提取人们感兴趣的信息和知识,这些知识或信息是隐含的、事先未知而潜在有用的,所提取的知识表示为概念、规则、规律和模式等形式。null数据挖掘作为知识发现过程的一个特定步骤,是一系列技术及应用,或者说是对大容量数据及数据间关系进行考察和建模的方法集。它的目标是将大容量数据转化为有用的知识和信息。 null(2)对数据挖掘技术的商业定义 从商业角度看,数据挖掘是新型的商业分析处理技术。它是从大型数据库或数据仓库中发现并提取隐藏在其中信息的一种新技术,帮助决策者寻找数据间潜在的关联,发现被忽略的因素。 (3)数据挖掘工具与传统数据分析工具的比较 数据挖掘是一类深层次的数据分析。 null工具特点分析重点分析目的数据集大小启动方式技术状况传统数据分析工具(DSS/EIS)回顾型的、验证型的已经发生了什么从最近的销售文件中列出最大客户数据维、维中属性数、维中数据均是 少量的企业管理人员、系统分析员、管理 顾问启动与控制成熟数据挖掘工具预测型的、发现型的预测未来的情况、解释发生的原因锁定未来的可能客户,以减少 未来的销售成本数据维、维中属性数、维中数据 均是庞大的数据与系统启动,少量的人员指导统计分析工具已经成熟,其他工具正在 发展中表5-2 数据挖掘工具与传统数据分析工具的比较3. 数据挖掘过程3. 数据挖掘过程 数据挖掘过程一般由确定挖掘对象、数据准备、模型建立、数据挖掘、结果分析表述和挖掘应用这几个主要阶段组成。数据挖掘可以描述为几个阶段的反复过程。 (1)数据准备 数据准备阶段又可进一步分成4个子步骤:数据集成、数据选择、数据预处理和数据转换。null(2)数据挖掘 A.选择数据挖掘方法。 B.选择数据挖掘算法。 C.数据挖掘。 除了选择适合的挖掘算法以外,其余的一切工作都可自动完成。null(3)数据挖掘、结果分析表述和挖掘应用 A.结果表达 B.结果评价 C.知识巩固 4.数据挖掘过程中的人员 4.数据挖掘过程中的人员 从数据挖掘的地过程看,不同的数据挖掘过程需要不同专长的人员,大体有业务分析人员、数据分析人员和数据管理人员。 (1)业务分析人员 对数据挖掘中的业务分析人员(或称为企业管理顾问)的要求是:这些人员要精通业务,能够解释业务对象,并且能够根据具体业务对象要求确定数据定义和挖掘算法。null(2)数据分析人员 对数据挖掘中的数据分析人员的要求是:要求这些人员精通数据挖掘分析技术,且对统计学能够较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并且能为每步操作选择适合的技术。null(3)数据管理人员 对数据挖掘中的数据管理人员的要求是:这些人员需要精通数据管理技术,能从数据库或数据仓库中收集数据挖掘所需要的数据。 数据挖掘项目的实施是一个不同类型专家合作的过程。 5.1.2 数据挖掘的分类5.1.2 数据挖掘的分类数据挖掘技术的分类方法很多,根据数据挖掘任务,可以分为关联规则挖掘、数据分类规则挖掘、聚类规则挖掘、依赖性分析和依赖性模型发现,以及概念描述、偏差分析、趋势分析和模式分析等;根据所挖掘的数据库来看,可以分为关系型数据库、面向对象型数据库、空间型数据库、时间型数据库、多媒体型数据库和异构型数据库等;根据所采用的技术分类,可以分为人工神经网络、决策树、遗传算法、领域 原则 组织架构调整原则组织架构设计原则组织架构设置原则财政预算编制原则问卷调查设计原则 和可是视觉化等。null目前,经常将数据挖掘技术分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。有时,也将数据挖掘技术分为预测模式和知识性模式的验证驱动(Verification-driven)和发现驱动(Discovery-driven)两大类。 1.验证驱动的数据挖掘1.验证驱动的数据挖掘 验证驱动的数据挖掘是通过数据库中的一些属性来预测另一个属性,它在验证用户提出的假设的过程中提取信息。 统计分析、查询和报告等一般使用的是验证驱动的数据挖掘操作。 (1)查询和报告 查询和报告是数据挖掘中最基础和最简单的操作。它在具体使用中又可细分为查询和报告两个环节。nullA.首先要验证用户提出的假设,并创建一个或一系列查询来表示用户提出的假设;然后把查询提交给数据库,获取数据后分析,最后确定接受或拒绝所提出的假设。 B.报告则把得出的结果做适当的处理,以图形、图表和文本的形式返回给用户,为用户分析和决策提供支持。null(2)统计分析 统计分析是数据挖掘中很重要且比较成熟的技术,常用的分析方法包括线性分析、非线性分析、连续回归分析和逻辑回归分析、单变量分析和多变量分析以及时间序列分析等。 2.发现驱动的数据挖掘2.发现驱动的数据挖掘 发现驱动的数据挖掘一般不是解决某个特定问题,它主要是发现用户目前未知,但有可能感兴趣的模式。 在使用验证驱动的数据挖掘技术时,分析员必须在分析开始前知道变量是什么,并能够指导挖掘。这种技术试图让分析员做最少的指导,从大量数据中筛选信息,查找经常出现的模式,检查趋势并发掘事实。null 这种技术用于发现预先并不具有的知识(即那些算法中隐含的知识或在其应用知识领域未显示的知识),这些知识是数据元素间的关系或模式。这些数据与特定的领域和任务相关,并且是令人感兴趣的和有用的。 null 验证驱动的数据挖掘技术的关键是进行模式识别和关系识别的算法。主要包括关联规则发现、数据分类、聚类分析、数据泛化和归纳、偏差分析等。 3.其他数据挖掘技术3.其他数据挖掘技术其他数据挖掘技术中包括: A.文本数据挖掘 B.Web数据挖掘 C.分类系统 D.可视化系统 E.空间数据挖掘 F.分布式数据挖掘等。5.1.3 常用数据挖掘模式与工具5.1.3 常用数据挖掘模式与工具1.待挖掘数据的模式 待挖掘数据的模式有很多种,按功能可分为有两类:预测型(Predictive)模式和描述型(Descriptive)模式。null预测型模式是可以根据数据项的值精确确定某种结果的模式,挖掘预测型模式所使用的数据也都是可以明确知道结果的。描述型模式是对数据中存在规则的描述,或者根据数据的相似性把数据分组。描述型模式不能直接用于预测。 null在实际应用中,往往根据模式的实际作用将数据挖掘模型细分为以下5种: (1)分类模式 (2)回归模式 (3)时间序列模式 (4)聚类模式 (5)关联模式 2.常用数据挖掘工具 2.常用数据挖掘工具 (1)按使用方式分类的数据挖掘工具 数据挖掘工具按使用方式可以分成决策 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 生成工具,商业分析工具和研究分析工具三类。 (2)按数据挖掘技术分类的数据挖掘工具 按数据挖掘的技术可以分成基于神经网络的工具,基于规则和决策树的工具,基于模糊逻辑的工具和综合性数据挖掘工具等。null(3)按应用范围分类的数据挖掘工具 按数据挖掘技术的应用范围可以分成专用型数据挖掘工具和通用型数据挖掘工具两大类。前者主要应用于特定领域,后者的应用范围则比较广泛。 另外,数据挖掘工具还可以分为基于神经网络的工具,基于规则和决策树的工具,基于模糊逻辑的工具和综合性数据挖掘工具等。 3.数据挖掘工具选择3.数据挖掘工具选择 评价一个数据挖掘工具,需要从以下几个方面来考虑。 (1)可产生的数据模式种类有多少 (2)解决复杂问题的能力null数据挖掘系统应可以提供下列方法解决复杂问题: A.多种模式 B.多种算法 C.验证方法 D.数据选择和转换 E.可视化 F.扩展性null(3)易操作性 (4)数据存取能力 (5)与其他产品的接口 (6)噪声数据处理 null产 品ClementineDarwinData mining WorkstationData EngineIBM Intelligent MinerF-DBMSIDISInformation HarvesterKnowledge SeekerNeural WarePrisonRe Mind技 术供应商规则归纳神经网络、遗传算法等神经网络神经网络、模糊逻辑、信号处理多种技术分数维规则发现模糊专家系统规则发现、决策树神经网络神经网络基于实例的推理、归纳逻辑Ingegral SolutionsThinking Machines Corp.HNC Software Inc.MIT GmbhIBM Corp.Cross/Z International Inc.Informational Discovery Inc.Informational HarvestingAngoss Software Int’1 Ltd..Neural Ware Inc.Nestor Inc.Cognitive Systems表5-3 一些主要的数据挖掘产品4.数据挖掘中的知识4.数据挖掘中的知识 数据挖掘所发现的知识最常见的有以下5类。 (1)广义知识(Generalization) 广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征、带有普遍性、较高层次概念和较宏观的知识,它反映同类事物共同性质,是对数据的概括、精炼和抽象。null(2)关联知识(Association) 关联知识反映一个事件和其他事件间依赖或关联的知识。如果多项属性间存在关联,那么其中一项的属性值即可依据其他属性值预测。null(3)分类知识(Classification & Clustering) 分类知识反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。 (4)预测型知识(Prediction) (5)偏差型知识(Deviation) 5.2 数据挖掘中的关联、挖掘公式和聚类5.2 数据挖掘中的关联、挖掘公式和聚类关联规则、挖掘公式和聚类是实施数据挖掘的基础。5.2.1 关联规则(1)5.2.1 关联规则(1)Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题。其核心方法是基于频集理论的递推方法。 1.经典方法 可将关联规则挖掘算法 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 分解为两个子问题。 (1)找到所有支持度大于最小支持度的项集(Item set),这些项集称为“频集”(Frequent Item set)。 (2)使用第(1)步找到的频集产生期望的规则。null在实际的应用中,人们相继提出了如下一些优化的方法。 (1)基于划分(partition)的方法 (2)基于杂凑(Hash)的方法 (3)基于采样的方法 (4)减少交易的个数 前面介绍的基于频集的算法存在的固有缺陷如下。 (1)可能产生大量候选集 (2)无法分析稀有信息2.多层和多维关联规则的挖掘思想 2.多层和多维关联规则的挖掘思想 根据规则中涉及到的层次,多层次关联规则可以分为如下规则。 (1)同层关联规则 同层关联规则,可以采用两种支持度策略。 A.统一最小支持度 B.递减最小支持度null(2)层间关联规则 考虑最小支持度时,应该根据较低层次的最小支持度来确定。 3.周期关联规则算法CCAR3.周期关联规则算法CCAR考虑到Apriori算法的核心是“所有频繁项目的子集也必然是频繁项目集”,而周期关联规则中频繁项目集可能具有不同的时间区域(项目少的项目集的时间区域一般较大,项目多的项目集的时间区域一般较小),强/弱周期频繁项目集的时间区域不同时不满足“弱周期频繁项目的子集都是强周期频繁项目集或若周期频繁项目集”,因此CCAR在应用Apriori算法时,要对其进行相应的修改.4.关联规则价值衡量的方法4.关联规则价值衡量的方法 用数据挖掘的算法得出了一些结果之后,数据挖掘系统如何知道哪些规则对于用户来说是有用的、有价值的?这里有两个层面:用户主观的层面和系统客观的层面。 (1)系统客观层面 很多的算法都使用“支持度-可信度”的框架。null(2)用户主观层面 用户主观层面可以采用一种基于约束(consraint based)的挖掘,具体约束的内容可以有: A.数据约束 B.指定挖掘的维和层次。 C.规则约束 5.2.2 数据挖掘公式5.2.2 数据挖掘公式1.BACON系统 (1)BACON系统的基本思想 BACON系统是运用人工智能技术从试验数据中寻找规律性比较成功的一个系统,其思想是让程序反复地考察数据并使用精炼算子创造新项,直到创造的这些项中有一个是常数时为止。null该系统运用的是数据驱动方法,这种方法使用的规则空间与假设空间是分开的。这类学习方法的大致步骤为: 步骤1:手集某些训练例。 步骤2:对训练例进行分析,决定应该使用的精炼算子。 步骤3:使用选出的算子修改当前的假设空间。null重复执行步骤1到步骤3直到取得满意的假设为止。 BACON系统中所采用的主要精炼算子如下: A.发现常数 B.具体化 C.斜率和截距的产生 D.积的产生 E.商的产生 F.模n的项的产生 null(2)BACON系统的功能和应用 BACON系统是用产生式语言OPS实现的。这个任务产生式系统的优点是它允许人们写一套小型的一般规律发现程序。这些程序在收集的数据上进行搜索,同时,这些数据仍存放在工作存储器中。如果数据中出现所说的一种规律性,它就会触发某个算子,执行适当的动作:nullCase1:如果规律性保持不变,就在有关范围内(时间、物体)进行一般化并检验。 Case2:如果在某时间间隔上属性值一致地增加或减少,则构造一个新属性,该属性是借助随时间变化的旧属性而定义的(例如加速度是由速度构造的),并且进一步研究这个新属性。nullCase3:如果一个属性值随着另一个上升,则要考虑新属性为它们的乘积。 最后,构造和发现一个这样的高级属性,它用到程序员在自定义规律中提到的新属性,并以它的值为常数,这是BAXIN系统的变体。 2.FDD系统2.FDD系统FDD系统是一个基于实验数据库的经验公式发现系统。 FDD系统运用了人工智能中的启发式方法和数据处理中的曲线拟合技术,通过对所提供原型之间的线性组合和一定程度的复合不断逼近实验数据,最终得到蕴藏在大量实验数据中的经验公式。其基本思路是:null步骤1:固定变量X2,对X1进行学习,即在现有原型基础上,依次对所提配,用最小二乘法求出a,b系数,若某一原型经线性组合后与实验数据的相对误差小于一给定或值,则学习成功,否则转步骤2。null步骤2:在步骤1求出的相对误差最小的两个原型f1(x1)、f2(x2)中,分别固定这两个原型,对X2进行学习,方法同步骤1,若误差仍不满足要求,则再固定本步骤中得到的相对误差最小的两个原型g1(x2)、g2(x2),对f1(x1)、f2(x1)进行学习。 重复执行步骤1和步骤2,直到求出满足要求的经验公式为止。 5.2.3 数据聚类5.2.3 数据聚类1.聚类概念 聚类(Clustering)是将物理或抽象对象进行分组并将相似对象归为一类的过程。 聚类的研究主要集中在两种方法:null(1)基于概率的方法 主要基于这样的假设,即不同属性的概率分布是相互统计独立的。而实际上并非如此,属性之间的关系是存在的,而且有时这种关系正是所寻找的。聚类的概率表示使得聚类的修改和存储比较费事,特别是如果一个属性有许多值,因为复杂性不仅依赖于属性数量,而且依赖于每个属性的取值数。另一相关问题是通常用于标识聚类的概率树是非平衡的,如果扭曲输入数据则将导致一些戏剧性的变化。null(2)基于距离的方法 基于这样的假设,即所有数据点均是预先给出并可频繁扫描。 2.聚类算法2.聚类算法(1)SAS系统聚类 SAS系统聚类分析过程用来对某个SAS数据集中的观测或变量进行分类。 SAS的聚类过程有:系统采类CLUSTER、快速聚类FASTCLUS、非参数聚类MODECLUS和变量聚类VARCLUS等。null(2)基于遗传算法的聚类方法 遗传算法是进化计算的一种,体现生物进化的四个要素:繁殖、变异、竞争和自然选择。 遗传算法的聚类思想:数据空间、编码、个体(染色体)、适应值函数、交叉、变异、选择(自然选择)。重复以上步骤,直到种群不再进化或找到目标为止。 null(3)基于随机搜系的聚类 这是一种基于随机搜索以及统计学的聚类算法PAM和CLARANS。 (4)聚类算法BIRCH 5.3 数据挖掘常用算法5.3 数据挖掘常用算法数据挖掘的集合论法、数据挖掘的决策树法、数据挖掘的遗传算法和数据挖掘的神经网络法是数据挖掘中的常用算法。 5.3.1 数据挖掘的集合论法5.3.1 数据挖掘的集合论法基于粗集理论的方法、基于概念树的方法和覆盖正例排斥反例的学习方法统称为集合论方法。1. 粗集理论方法1. 粗集理论方法 粗集理论是一种研究不精确和不确定性知识的数学工具。粗集理论和模糊集理论都是针对不确定性问题的,且它们既相互独立又相互补充。用粗集理论来处理不确定性问题的最大优点在于它不需要关于数据的预先或附加的信息,且粗集方法容易掌握和使用,它最早被用于医学和工业知识库中。null粗集理论中的一些概念和方法可以用来从数据库中发现分类规则,其基本思想是将数据库中的属性分为条件属性和结构属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间的上下近似关系生成判定规则。 2.概念树方法2.概念树方法在数据库中,许多属性都是可以进行数据归类的,以形成概念汇聚点,各属性值和概念依据抽象程度不同可以构成一个层次结构,概念的这种层次结构通常称为概念树。 基于概念树的知识发现方法是一种归纳方法,它其实是一个元组合并的处理过程,用这种方法从数据库中发现规则知识的核心是执行基本的和面向各属性的归纳。其基本思想是:null(1)一个属性的较具体的值被该属性的概念树中的父概念所替代。 (2)对知识基表中出现的相同元组进行合并,构成更宏观的元组,并计算宏元组所覆盖的元组数目,如果数据库记录生成的宏元组数目仍然很大,那么将用这个属性的概念树中更一般的父概念去替代或者根据另一个属性进行概念树的提升操作。 (3)生成覆盖面更广、数量更少的宏元组,并归纳所得的最后结果转换成逻辑规则。3.覆盖正例排斥反例方法3.覆盖正例排斥反例方法 覆盖正例排斥反例方法是从已知的正例和反例中归纳出能够描述正例而排斥反例的一般规则,它在机器学习中称为示例学习(也称为通过例子学习)。在学习的过程中,它既需要正例集又需要反例集,数据库中的元组集合可以被视为示例集合。当要发现某一类而排斥其余类的一般规则时,可以将某一类元组作为正例集,其余类所有的元组作为反例集,这样依次指定正例集和反例集便可以发现描述知识基表中每一类元组而排斥其余类的一般规则,即分类规则。5.3.2 数据挖掘的决策树法5.3.2 数据挖掘的决策树法决策树方法是以信息论原理为基础的。 1. ID3决策树方法 ID3方法检验所有的特征,选择信息增益(互信息)最大的特征点A为产生决策树节点,由该特征的不同取值建立分支,对各分支的实例子集递归,用该方法建立决策树节点和分支,直到某一子集中的例子属于同一类。 nullID3方法利用互信息最大的特征建立决策树,使决策树节点数最小,识别例子准确率高。 在现实世界中,每个实体用多个特征来描述。每个特征限于在一个离散集中取互斥的值。 决策树叶子为类别名,即P或者N。 null天气湿度风晴雨多云P高正常有风无风NPNP图5-3 ID3决策树2. ID3算法 2. ID3算法 (1)主算法 A.从训练集中随机选择一个既含正例又含反例的子集(称为窗口)。 B.用建树算法使当前窗口形成一棵决策树。 C.对训练集(窗口除外)中例子用所得决策树进行类别判定,找出错判的例子。 D.若存在错判的例子,把它们插入窗口,转B,否则结束。null训练集 PE、NE取子集 建窗口窗口 PE’、NE’生成 决策树测试 PE、NE存在错判的 PE”、NE”码此决策树为 最后结果扩展窗口 PE’=PE’+PE” NE’=NE’+NE”是否图5-4 ID3主算法 流程 快递问题件怎么处理流程河南自建厂房流程下载关于规范招聘需求审批流程制作流程表下载邮件下载流程设计 null(2)建树算法 A.对当前例子集合,计算各特征的互信息。 B.选择互信息最大的特征Ak。 C.把在Ak处取值相同的例子归于同一子集,Ak取几个值就得几个子集。nullD.对既含正例又含反例的子集,递归调用建树算法。 E.若子集仅含正例或反例,对应分支标上P或N,返回调用处。 3.IBLE决策树方法3.IBLE决策树方法 IBLE方法是利用信息论中信道容量的概念作为对实体中选择重要特征的度量。 IBLE算法由4部分组成:预处理、建规则算法、建决策树的算法、类别判定算法。 决策树方法对记录大的数据库时的效果就明显,这就是它显著的优点。 null(1)优点 A.可以生成可以理解的规则。 B.计算量相对来说不是很大。 C.可以处理边疆和种类字段。 D.决策树可以清晰地显示哪些字段比较重要。 null(2)缺点 A.对连续性的字段比较难预测。B.对有时间顺序的数据,需要很多预处理工作。C.当类别太多时,错误可能会增加得比较快。D.一般算法分类的时候,只是根据一个字段来分类。 5.3.3 数据挖掘的遗传算法5.3.3 数据挖掘的遗传算法遗传算法是一种抽象于生物进化过程的基于自然选择和生物遗传机制的优化技术。 遗传算法可被看作寻优和优化过程。 遗传算法是多学科结合与渗透的产物,遗传算法的研究工作主要集中在以下几个方面:null(1)基础理论:这包括进一步发展遗传算法的数学基础,从理论和试验研究它们的计算复杂性。 (2)分布并行遗传算法:遗传算法在操作上具有高度的并行性,许多研究人员都在探索在并行机和分布式系统上高效执行遗传算法的策略。null(3)分类系统:属于基于遗传算法的机器学习中的一类,它包括一个简单的基于串规则的并行生成子系统、规则评价子系统和遗传算法子系统。 (4)遗传神经网络:这包括联接权、网络结构和学习规则的进化。 (5)进化算法:模拟自然进化过程可以产生鲁棒的计算机算法——进化算法,遗传算法是三种典型的算法之一。 1.基于遗传算法的分类系统 1.基于遗传算法的分类系统 目前,基于遗传算法的机器学习系统中,最成功、最典型的就是分类器系统。一个分类器系统主要由三个子系统组成:基于串规则的并行生成子系统、规则评价子系统、遗传算法子系统。2.基于混合数据的遗传分类的算法2.基于混合数据的遗传分类的算法 遗传分类算法的主要步骤如下: (1)根据规则的适宜值的大小,从中选出一定规模的分类规则。规则的适宜值越大,被选中的概率越大。 (2)对选出的规则集,利用其中的遗传算子,产生其“后代”。 (3)用产生的“后代”取代原规则集中适宜值小者。 5.4 神经网络与专家系统5.4 神经网络与专家系统计算机科学技术主要采用了两种方法来使计算机的行为表现出智能化的特征。一种方法是专家系统的方法,另一种方法是神经网络的方法。前者是描绘人类行为的规则,然后在计算机程序中以完全不同的形式表达这些规则;后者则试图模拟人和动物的大脑功能,首先根据人类经验从了解如何处理一般类型情形的经验中学习,然后将这些所学到的知识运用到同类型的情形中去。5.4.1 神经网络方法5.4.1 神经网络方法从数理逻辑的角度讲,演绎逻辑的算法体系可以发现新定理,却无法发现新定律。但实践的结果却揭示:归纳逻辑尤其是不完全归纳逻辑是知识发现的合理途径。1.对人脑神经网络的结构及过程分析1.对人脑神经网络的结构及过程分析 (1)突触及突触传递 (2)脉冲的产生与传递 (3)脉冲在轴突上的传递 (4)大脑神经系统的结构 2.人工神经网络模型 2.人工神经网络模型 人工神经网络就是以神经生理学为基础。从神经生理学的基本观点和结论作为构造人工神经网络基本假设的前提。 可以将神经网络模型分成: (1)感知机 (2)Hamming网络 (3)Hopfield网络null综上所述有: (1)感知机的输出直接根据网络的输入计算出来,并不涉及到反馈。 (2)以Hamming网络为代表的竞争网络有两个主要特点。其一是它们计算出已存储的标准模式和输入模式之间的距离测度。其二是通过竞争决定哪一个神经元表示的标准模式是接近于输入模式。 null(3)诸如Hopfield递归网络最初是从统计力学的研究发展而来的。它们主要用于联想存储中,其存储的数据能由相关的输入数据回忆出来,而无需用一个地址对其访问。 3.对神经网络模式的扩展3.对神经网络模式的扩展(1)前馈和联想网络 A.径向基本网络。 B.CMAC(小脑模型连接控制器)C.多项式网络 D.模块化网络 E.自适应评价网络 F.反传网络的变形 G.概率神经网络 H.广义回归神经网络 I.具有时间延迟的多层网络 J.带延迟的多层网络训练null(2)竞争网络 A.对传网络 B.新认知机 C.ART网络 (3)动态联想存储器网络 与神经网络结构或学习规则密切相关的其他学科的思想包括: (1)统计学 (2)物理学/统计力学 (3)生物学/心理学5.4.2 专家系统5.4.2 专家系统1. 专家系统的基本思想 计算机化的专家系统的全部基本特征如下: (1)领域专家必须决定这个系统的目标、该系统将处理的概念以及其表达知识的方式和应用于其决策过程中的规则。null(2)专家规则是通用的。它们描述的不是某种特殊的情形。 (3)特定的情形中,决策者拥有或是可以得到的为应用规则所需要的事实。 (4)尽管规则可以改变,但基本的推理过程保持不变。 null知识库推理机专家系统 方框图用户接口数据库领域专家知识工程师用户图5-11 专家系统框图2.选择一个好的专家系统应用程序 2.选择一个好的专家系统应用程序 技术可行性,操作可行性和经济可行性这三个指标同样适用专家系统。 (1)技术可行性的问题 (2)操作可行性的问题 (3)经济可行性的问题 3.专家系统的优缺点 3.专家系统的优缺点 (1)专家系统的优点 与要求人类专家完成同样的任务比较,专家系统可立即呈现出它们所能提供的如下优势: A.给定同样的数据,专家系统可以比人类更快地解决问题。 B.专家系统的输出是一致的。nullC.当需要最小的时间提前量和中等成本时,可以复制专家系统。 D.专家系统可解放人类专家,让他们从事其他工作。 E.专家系统不介意在人类认为不便或危险的地方工作或从事一些人类认为烦琐的重复工作。 null(2)专家系统的不足 任何技术都不可能在任何时间对所有应用都是完美的。专家系统可能的开发者和用户应当了解专家系统的局限,包括: A.专家的知识领域通常是狭隘的。 B.专家系统不能运用常识,而只能适用它们的规则。nullC.专家系统的极限是脆弱的。 D.专家系统开发费用昂贵;这不是因为硬件(日益便宜的)或因为软件工具(日益便宜的)费用,而是因为人类专家的时间和涉及这一过程的其他人员的费用昂贵。 E.一个或多个专家必须在工程项目延长期在场为工程项目服务。 小结小结5.1 数据挖掘概述 5.2 数据挖掘中的关联、挖掘公式和聚类 5.3 数据挖掘常用算法 5.4 神经网络与专家系统
本文档为【数据挖掘算法】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_079721
暂无简介~
格式:ppt
大小:287KB
软件:PowerPoint
页数:0
分类:
上传时间:2010-10-15
浏览量:28