首页 (完整word版)对数据挖掘的认识

(完整word版)对数据挖掘的认识

(完整word版)对数据挖掘的认识对数据挖掘的认识一、数据挖掘的理解数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别出有效的、新颖的、潜在有用的，以及最终可理解的知识的非平凡过程。这个定义包括几层含义：数据源必须是真实的、大量的、含噪声的；发现的是用户感兴趣的知识；发现的知识要可接受、可理解、可运用；并不要求发现放之四海皆准的知识，仅支持特定的发现问题。数据挖掘，简单地可理解为通过对环境数据的操作，从数据中发现有用的知识。它是一门涉及面很广的交叉学科，包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。...

对数据挖掘的认识一、数据挖掘的理解数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别出有效的、新颖的、潜在有用的，以及最终可理解的知识的非平凡过程。这个定义包括几层含义：数据源必须是真实的、大量的、含噪声的；发现的是用户感兴趣的知识；发现的知识要可接受、可理解、可运用；并不要求发现放之四海皆准的知识，仅支持特定的发现问题。数据挖掘，简单地可理解为通过对环境数据的操作，从数据中发现有用的知识。它是一门涉及面很广的交叉学科，包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。就具体应用而言，数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程，这些模型和关系可以用来做出预测。从商业角度上看，数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知，有效和可实用三个特征。先前未知的信息是指该信息是预先未曾预料到的，既数据挖掘是要发现那些不能靠直觉发现的信息或知识，甚至是违背直觉的信息或知识，挖掘出的信息越是出乎意料，就可能越有价值。二、数据挖掘的主要方法数据挖掘技术主要来源于四个领域：统计分析、机器学习、神经网络和数据库。所以，数据挖掘的主要方法可以粗分为：统计方法、机器学习方法、神经网络方法和数据库方法。统计方法主要包括：回归分析（多元回归、自回归等）、判别分析（贝叶斯判别、费歇尔判别、非参数判别等）、聚类分析（系统聚类、动态聚类等）、探索性分析（主元分析法、相关分析法等）、以及模糊集、粗集、支持向量机等。模糊集方法即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高，模糊性越强，一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。粗集方法建立在粗集理论上。粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点：不需要给出额外信息；简化输入信息的表达空间；算法简单，易于操作。粗集处理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统，为粗集的数据挖掘奠定了坚实的基础。但粗集的数学基础是集合论，难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点。机器学习方法主要包括：归纳学习方法（决策树、规则归纳等）、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。决策树是一种常用于预测模型的算法，它通过将大量数据有目的分类，从中找到一些有价值的，潜在的信息。它的主要优点是描述简单，分类速度快，特别适合大规模的数据处理。最有影响和最早的决策树方法是由Quinlan提出的著名的基于信息熵的ID3算法。它的主要问题是：ID3是非递增学习算法；ID3决策树是单变量决策树，复杂概念的表达困难；同性间的相互关系强调不够；抗噪性差。针对上述问题，出现了许多较好的改进算法，如Schlimmer和Fisher 设计了ID4递增式学习算法;钟鸣，陈文伟等提出了IBLE算法等。遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法，是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。但遗传算法的算法较复杂，收敛于局部极小的较早收敛问题尚未解决。神经网络方法主要包括：前向神经网络（BP算法等）、自组织神经网络（自组织特征映射、竞争学习等）等。神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题，因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类：以感知机、BP反向传播模型、函数型网络为代表的，用于分类、预测和模式识别的前馈式神经网络模型；以Hopfield的离散模型和连续模型为代表的，分别用于联想记忆和优化计算的反馈式神经网络模型；以ART模型、Koholon模型为代表的，用于聚类的自组织映射方法。神经网络方法的缺点是"黑箱"性，人们难以理解网络的学习和决策过程。数据库方法主要是基于可视化的多维数据分析或OLAP方法，另外还有面向属性的归纳方法。三、数据挖掘的任务数据挖掘的任务主要有分类分析、聚类分析、关联分析、序列分析及时间序列。另外，还有孤立点分析、依赖关系分析、概念描述、偏差检测等。1、分类分析(ClassificationAnalysis)分类就是找出一个类别的概念描述，它代表了这类数据的整体信息，即该类的内涵描述，并用这种描述来构造模型，一般用规则或决策树模式表示。分类是有制导的学习，它利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测，常应用于风险管理、广告投放等商业环境。2、聚类分析(ClusteringAnalysis)聚类又被称为分隔（segmentatio），聚类分析是把数据按照相似性归纳成若干类别，同一类中的数据彼此相似，不同类中的数据相异。聚类分析可以建立宏观的概念，发现数据的分布模式，以及可能的数据属性之间的相互关系。聚类分析是无制导的学习，聚类分析与分类分析不同，它不依赖于没有事先确定的类，也没有已具有类标识的训练集。好的聚类分析算法应该使得所得到的聚簇内的相似性很高，而不同的聚簇间的相似性很低。3、关联分析(AssociationAnalysis)关联规则挖掘是由RakeshApwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性，就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性，还不断引入兴趣度、相关性等参数，使得所挖掘的规则更符合需求。最典型的应用是市场中购物篮分析。4、序列分析及时间序列(SequenceAnalysisandTimeSequence)序列分析及时间序列是指通过序列信息或时间序列搜索出重复发生概率较高的模式。与回归一样，它也是用己知的数据预测未来的值，但这些数据的区别是变量所处的序列或时间的不同。四、数据挖掘项目的开发周期第1步数据收集将要挖掘的数据资源收集到数据库或数据仓库中。若已有数据仓库的主题数据不够丰富，还需从其他相关数据源加入新数据。数据收集完后，还要进行数据合理采样，以减少训练数据集的容量。多数情况下，从50,000客户记录中发现的模式有可能与从1,000,000客户记录中发现的模式是一样的。第2步数据清洗和转换数据清洗的目的是消除数据的噪音和其他无关信息。数据转换的目的是根据确定的数据类型和数据值将不同数据源的同类数据进行统一格式。数据清洗和转换常用的相关技术有：数据类型转换、连续值属性转换、分组、集合、去处孤立点等。第3步模型建立模型建立是数据挖掘的核心阶段。首先，要和相关领域的专家组成团队，明确数据挖掘项目的目的和具体的数据挖掘任务。根据数据挖掘任务，选择相关算法。用不同算法建立不同数据模型，再用专业的模型评估工具比较模型的准确度。即使是同一种算法，参数选取的不同，所建模型的准确度也不一样。第4步模型评估用模型评估工具对模型进行评估，认识发现模式的实际意义。若模型中的模式没有用，必须要重新进行数据清洗和转换、建立模型。数据挖掘是一个循环的过程，要通过反复的循环发现合理的模型。第5步报告报告是数据挖掘成果的主要交付手段。有两种类型的报告：发现模式报告和预测报告。第6步预测在很多数据挖掘项目中，发现模式还不够，还要通过模式进行预测。比如，银行业可以利用已建立的风险评估模型去预测每个新的贷款申请的潜在风险。第7步应用集成将数据挖掘集成到实际应用中，特别是在应用中加入实时预测组件是数据挖掘项目的发展趋势。比如，CRM中有了数据挖掘功能，就可以对客户进行分类。ERP中有了数据挖掘功能，就能够预测产量。第8步模型管理每一个数据挖掘模型都有一定的生命周期，维护好模型也是一项重要工作。不同应用中的模型的稳定期是不一样的，要根据实际情况对模型进行管理。另外，模型管理中还要注意安全问题，避免敏感数据的泄露。五、数据挖掘算法的使用当前提出的各种数据挖掘算法不下近百种，但没有任何一种数据挖掘的算法是万能的。算法的具体使用时应注意：不同的算法应用于具体数据的含义和能力不同；一个问题可能有多种算法可以求解但挖掘质量可能有差异；有些算法可以用于多种数据类型，有些算法则对某些数据类型不适用；有些算法的参数选择依赖于经验；有些算法对数据有特殊的要求，需要做某些转换、过滤之类的操作；通过历史数据所建立的模型，其分析和挖掘出的结果，与当前实际客体的行为不一定完全相同，因而在应用挖掘出的知识进行决策时存在非系统性风险。

                    本文档为【(完整word版)对数据挖掘的认识】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：￥13.0 已有0 人下载

立即下载

(完整word版)对数据挖掘的认识

你可能还喜欢