首页 数据挖掘技术中基于关联规则算法的研究

数据挖掘技术中基于关联规则算法的研究

举报
开通vip

数据挖掘技术中基于关联规则算法的研究摘要数据挖掘的主要目的在于能够从大型的数据库中挖掘出对用户有价值的信息,以便为决策者地决策提供有用的数据依据本文对数据挖掘技术的概念和内容做出了描述,同时也对基于关联规则的数据挖掘技术进行比较全面的概括和分析,并提出解决相应问题的基于关联规则挖掘算法。关键词数据挖掘;关联规则;算法1概述1.1课题的研究背景现代计算机科学技术发展的历史,同时也是数据和信息加工手段不断更新和改善的历史。随着计算机硬件和软件不断的发展,尤其是数据库技术与应用的广泛推广,摆在人们面前的问题出现了,这些急剧膨胀的信息数据,如何有效利用这一丰...

数据挖掘技术中基于关联规则算法的研究
摘要数据挖掘的主要目的在于能够从大型的数据库中挖掘出对用户有价值的信息,以便为决策者地决策提供有用的数据依据本文对数据挖掘技术的概念和 内容 财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容 做出了描述,同时也对基于关联 规则 编码规则下载淘宝规则下载天猫规则下载麻将竞赛规则pdf麻将竞赛规则pdf 的数据挖掘技术进行比较全面的概括和分析,并提出解决相应问题的基于关联规则挖掘算法。关键词数据挖掘;关联规则;算法1概述1.1课题的研究背景现代计算机科学技术发展的历史,同时也是数据和信息加工手段不断更新和改善的历史。随着计算机硬件和软件不断的发展,尤其是数据库技术与应用的广泛推广,摆在人们面前的问题出现了,这些急剧膨胀的信息数据,如何有效利用这一丰富数据海洋的宝藏为人类服务,也已成为广大信息技术工作者所重点关注的焦点之一。传统的收集数据技术可以在一定程度上对收集来的数据信息进行统计分析,能够获得一定的数据价值,这种传统的收集数据技术具有一定的效果,但当这种方法在面对海量的数据并从中进行数据分析时,却没有一个比较好的解决 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 。无论是数据的统计、数据的查询、数据的报表等这些传统的数据处理方式都是对收集来的数据简单的进行处理,而不能对这些数据内部所隐含的价值信息进行有效的提取和分析。在这些大量数据的背后隐藏了很多具有决策意义的信息,如何得到这些能够为我们提供决策依据的数据依据已经成为当前的一个热点的研究方向。1.2研究目的和意义数据挖掘技术是面向应用型的。目前,在很多重要的领域,数据挖掘都可以发挥积极促进的作用,尤其是在如保险、交通、零售、银行、电信等商业应用领域。数据挖掘能够帮助用户解决许多典型的商业性的问题,其中包括:数据库营销、客户群体划分、背景分析、交叉销售等市场分析行为,以及客户流失性分析、客户信用评分、欺诈发现等等。数据挖掘技术已经广泛的在企业市场的营销中得到了应用,它以市场营销学的市场细分原理为基础,通过对涉及到消费者消费行为的信息进行收集、加工和处理,得出结论以确定目标消费者地兴趣、消费倾向、习惯以及消费需求,从而能够推出目标消费者下一步的消费方向,然后以得出来的结论为基础,对目标消费者和消费群体进行定向的营销,这与传统的盲目营销的方式相比,可以在很大程度上节省因营销而产生的开支,能够提高营销的成功率,从而可以为企业带来更大的利润,也能够帮助企业树立起好的口碑。2数据挖掘技术的理论基础2.1数据挖掘技术概述数据挖掘的定义是能够从大量、有噪声、模糊、随机、不完全、实际应用数据中提取出隐含在其中的,又不为人们所知的,同时具有潜在价值的知识和信息的过程,又被称为从数据库中的知识发现。数据挖掘不同于传统的数据分析,二者有着本质的区别,数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。通过挖掘所得到的信息应该具有未知、有效和实用等3个特征。整个KDD通常会有若干个挖掘的步骤组成,通常,数据挖掘是其中最重要的一个步骤。通常情况来讲,数据挖掘与知识发现这两个概念很容易被人们所混淆,其主要原因是它们有相似性以及共同点,并且究其表面信息来讲,似乎如出一辙。但是就其实质来讲,两者是有显著不同的[1]。2.2数据挖掘的任务数据挖掘的任务主要是关联分析、聚类分析、分类、预测、偏差分析和时序模式。2.2.1关联分析关联规则挖掘是由2个或2个以上变量来取值的。这些变量之间假如存在着某种关系,就可以称这些变量之间相互关联。数据的关联在数据库中可以把分为简单、时序和因果的关联,同时也是目前对数据关联的一个热门的研究方向。2.2.2聚类分析聚类分析就是把数据按其相似性进行分类,分为不同的类别,同一类别中的数据是相似的,不同类中的数据是不相同的。通过聚类分析我们可以发现数据的分布模式,通过数据的分布模式找出可能的数据属性之间的关系。2.2.3分类分类就是在数据的分析过程中找到一个分类的概念,然后对这个分类的概念进行详细的概述,不同的分类代表不同类别数据的信息,并用对这种分类的详细定义来构造相应的模型,这种构造的模型一般用决策树的模式或者规则模式进行详细的描述。2.2.4预测分析预测就是希望通过对数据的系统分析,以找到数据变化的趋势和发展的规律,并依照这种趋势和发展的规律建立对应的数学模型,然后用这种数学模型对数据的未来走势和发展进行对应的预测。对预测结果关心的是预测的准确度,这个准确度通常可以用预测的方差进行度量。2.2.5偏差分析在对偏差的分析过程中能够用到很多的知识,而数据库中的数据多多少少有着异常的情况,通过对数据使用偏差分析来发现数据库中数据存在的异常状况,这对对于数据挖掘来说是非常重要的。2.2.6时序模式时序模式是指通过时间序列的方法来找出的发生概率比较高的数据模式。这种数据模式与回归模式是一样的,也就是通过使用己知的数据来对数据未来的值进行预测。2.3数据挖掘的方法数据挖掘的方法包括:神经网络方法、统计分析方法、模糊集方法、遗传算法、决策树方法、覆盖正例排斥反例方法等等。2.4数据挖掘的对象和流程根据信息存储格式,用于挖掘的对象有关系数据库、文本数据源、多媒体数据库、空间数据库、时态数据库、面向对象数据库、数据仓库、异质数据库以及Internet等。数据挖掘的流程包括:定义问题、数据准备、数据挖掘、结果分析和知识运用等。如下图所示:2.5数据挖掘的应用数据挖掘在各领域的应用还是比较广泛的,只要该产业的数据具有分析价值并且需要利用数据仓库和数据库,皆可利用数据挖掘工具来进行有目的的挖掘分析与评估。通常情况来讲,较为常见的数据挖掘应用多发生在制造业、零售业、财务金融保险、直效行销界、通讯业以及医疗服务等。3关联规则的理论基础和算法研究3.1关联规则概述如果假设I是项的集合。那么给定一个交易数据库,交易数据库中每个事务是I的一个非空子集,即,每一个交易都与一个唯一的标识符TID对应。关联规则在D中的支持度是D中事务同时包含X、Y的百分比,即概率;置信度是包含X的事务中同时又包含Y的百分比,即条件概率。关联规则是有趣的,如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。关联规则的数据挖掘过程大体的可以分成2个过程:1)首先从数据资料的集合中找出所有相关的高频数据项目组;2)接下来对这些高频数据项目组生成相应的关联规则。3.2Apriori算法的基本思想Apriori算法是一种基于数据挖掘的布尔关联规则频繁项集算法,这种算法具有一定的学术界影响力。这种算法首先需要找出所有的与数据相关联的频集,频集中包含的项集出现的频率需要和事先定义的最小支持度至少保持一样。接下来由频集产生相应的数据的强关联规则,这些数据的强关联规则需要满足最小的可信度和最小的支持度。最后使用一开始找到的频集,利用频集产生期望的数据规则,产生的数据规则包含集合的项中所有的数据关联规则,其中每一个数据规则的右部有且只有一项,在Apriori算法中我们使用的是中规则的相关概念。3.3Apriori算法的不足由频繁k-1项集进行自连接生成的候选频繁k项集的数量是非常巨大的。在验证候选频繁k项集的时候需要对整个数据库进行扫描,这个扫描的过程是非常耗费时间的。
本文档为【数据挖掘技术中基于关联规则算法的研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_511210
暂无简介~
格式:doc
大小:18KB
软件:Word
页数:6
分类:
上传时间:2022-09-11
浏览量:1