首页 数据挖掘概念与技术word版(1)

数据挖掘概念与技术word版(1)

举报
开通vip

数据挖掘概念与技术word版(1)摘要随着计算机和网络的发展,对于大数据需要数据分析,在分析数据的时候,数据挖掘的过程也叫知识发现的过程,它是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。本文主要综述了数据挖掘中常用的一些关联规则,分类和聚类的算法。关键字:数据挖掘;分类;聚类;关联规则1引言1.1数据挖掘介绍近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分...

数据挖掘概念与技术word版(1)
摘要随着计算机和网络的发展,对于大数据需要数据分析,在分析数据的时候,数据挖掘的过程也叫知识发现的过程,它是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。本文主要综述了数据挖掘中常用的一些关联 规则 编码规则下载淘宝规则下载天猫规则下载麻将竞赛规则pdf麻将竞赛规则pdf ,分类和聚类的算法。关键字:数据挖掘;分类;聚类;关联规则1引言1.1数据挖掘介绍近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 和科学探索等[1]。 数据挖掘出现于20世纪80年代后期,是数据库研究中一个很有应用价值的新领域,是一门交叉性学科,融合了人工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个领域的理论和技术.数据挖掘作为一种技术,它的生命周期正处于沟坎阶段,需要时间和精力去研究、开发和逐步成熟,并最终为人们所接受。20世纪80年代中期,数据仓库之父W.H.In-mon在《建立数据仓库》(BuildingtheDataWarehouse)一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理和决策中面向主题的、集成的、时变的以及非易失的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程—对分布在企业内部各处的业务数据的整合、加工和分析的过程。传统的数据库管理系统(databasemanagementsystem,DBMS)的主要任务是联机事务处理(on-linetransactionprocessing,OLTP);而数据仓库则是在数据分析和决策方面提供服务,这种系统被称为联机分析处理(on-lineanalyticalprocessing,OLAP).OLAP的概念最早是由关系数据库之父E.F.Codd于1993年提出的。当时,Codd认为OLTP已不能满足终端用户对数据库查询分析的需要,结构化查询语言(structuredquerylanguage,SQL)对数据库进行的简单查询也不能满足用户分析的需求.用户的决策分析需要对关系数据库进行大量计算才能得到结果,因此Codd提出了多维数据库和多维分析的概念[2]。数据挖掘(DataMining),就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘,在人工智能领域,习惯上又称为数据库中知识发现(KnowledgeDiscoveryinDatabase,KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。数据挖掘可以与用户或知识库交互。数据挖掘利用了来自如下一些领域的思想:(1)来自统计学的抽样、估计和假设检验,(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。因此,数据挖掘被信息产业界认为是数据库系统最重要的前沿之一,是信息产业最有前途的交叉学科。1.2数据挖掘常用方法[3]数据挖掘系统利用的技术越多,得出的结果的精确性越高。原因很简单,对于某一种技术不适用的问题,其他方法却可能奏效。这主要取决于问题的类型以及数据的类型和规模。数据挖掘设涉及的学科领域和方法很多,有多种分类法。根据挖掘任务,可分为分类、预测、聚类、关联规则、异常和趋势发现等。根据挖掘方法。可分为统计方法和机器学习方法。统计方法包含回归分析、判别分析、聚类分析、探索性分析等、机器学习包含神经网络、集成学习、基于案例学习、遗传算法等。数据挖掘的方法,常用的有分类、聚类、关联、预测。2关联规则2.1Apriori算法关联规则的挖掘分为两步:(1)找出所有频繁项集;(2)由频繁项集产生强关联规则。而其总体性能由第一步决定。在搜索频繁项集的时候,最简单、基本的算法就是Apriori算法。它是R.Agrawal和R.Srikant于1994年提出摄的为布尔关联规则挖掘频繁项集的原创性算法。算法的名字基于这样一个事实:算法使用频繁项集性质的先验知识。Apriori使用一种称作逐层搜索的迭代方法,k项集用于探索(k1)项集。首先,通过扫描数据库,累积每个项的计数,并收集满足最小支持度的项,找出频繁1项集的集合。该集合记作L1。然后,L1用于找频繁2项集的集合L2,L2用于找L3,如此下去,直到不能再找到频繁k项集。找每个Lk需要一次数据库全扫描。为提高频繁项集逐层产生的效率,一种称作Apriori性质的重要性质用于压缩搜索空间。Apriori性质:频繁项集的所有非空子集也必须是频繁的。Apriori性质基于如下观察。根据定义,如果项集I不满足最小支持度阈值min_sup,则I不是频繁的,即P(I) 数学 数学高考答题卡模板高考数学答题卡模板三年级数学混合运算测试卷数学作业设计案例新人教版八年级上数学教学计划 工具,使得对知识能够进行严密的分析和操作。又由于数据挖掘的深入研究和一些成功的商业运作,使得粗糙集理论和数据挖掘有了天然的联系,粗糙集在知识上的定义、属性约简、规则提取等理论,使得数据库上的数据挖掘有了深刻理论基础,从而为数据挖掘提供了一种崭新的工具。粗糙集不仅自己可以独特的挖掘知识,而且可以和其他的数据挖掘算法结合起来,从而产生了学多混合数据挖掘算法,大大开拓了数据挖掘的算法和技术,丰富了数据挖掘的工具。除了研究,人们也在积极寻找粗糙集在数据挖掘中的应用,如RSES[18]系统,该系统是基于粗糙集理论上研制的数据挖掘系统,里面提供了粗糙集的属性约简算法和规则提取,可以找到最佳约简集和近似约简集,并可以提出规则。另外,还有,Regina大学开发的KDD-R系统[3],被广泛用于医疗诊断、电信业等领域。还有美国Kansas大学开发的LERS(LearningfromExamplesbasedonRS)系统,在医疗诊断、社区规划、全球气象研究等方面都有应用。4.4其他分类分类算法还包括基于规则的分类法,支持向量机和朴素贝叶斯算法等。这些技术都使用了一种学习算法来确定分类模型 ,这样的模型能够很好地拟合输入数据中类标号和属性之间的联系。5 总结 初级经济法重点总结下载党员个人总结TXt高中句型全总结.doc高中句型全总结.doc理论力学知识点总结pdf 一学期的学习使我对数据挖掘中分类、聚类、预测、关联分析等有所了解。数据挖掘综合了统计分析、机器学习、人工智能、数据库等诸多方面的研究成果。如果找到了相关创新点,后期可以写相关论文,建立原型系统来实现自己的创新,进行实验。参考文献[1][2]王光宏,蒋平.数据挖掘综述.200092.[3]黄文,王正林.数据挖掘:R语言实战.
本文档为【数据挖掘概念与技术word版(1)】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_842972
暂无简介~
格式:doc
大小:26KB
软件:Word
页数:10
分类:
上传时间:2021-11-30
浏览量:2