下载
加入VIP
  • 专属下载特权
  • 现金文档折扣购买
  • VIP免费专区
  • 千万文档免费下载

上传资料

关闭

关闭

关闭

封号提示

内容

首页 数据挖掘中的关联规则方法

数据挖掘中的关联规则方法.doc

数据挖掘中的关联规则方法

情感的空地谁人前来打扫
2017-10-16 0人阅读 举报 0 0 暂无简介

简介:本文档为《数据挖掘中的关联规则方法doc》,可适用于综合领域

数据挖掘中的关联规则方法则AB。挖掘关联规则关键在于寻找频繁项集。引言定理设A,B是数据集DB中的项目集,若A包含B,则A的支持度大于B的支持度,若A包含于B,且A是非频繁模式关联规则是数据挖掘的典型方法,它是描述在一个交易中集,则A也是非频繁模式集,若A包含于B,且B是频繁模式物品之间同时出现的规律的知识模式。更确切地说,关联规则集,则A也是频繁模式集。是通过量化的数字描述物品X出现对物品Y的出现有多大的影响。同时满足最小可信度阈值和最小支持度阈值的关联规则关联规则的种类为强关联规则。基于规则中处理的变量的类别关联规则可以分为布尔型和数值型。布尔型关联规则处理关联规则的基本概念的位都是离散的、种类化的,它显示了这些变量之间的关系,数关联规则描述了交易数据集DB中两组不同项目之间存值型关联规则可以和多维关联或多层关联规则结合起来,对数在的某种关联关系。关联规则定义的形式化描述如下,值型字段进行处理,将其进行动态的分割,或者直接对原始的给定一个交易数据库DB,I={I,I,…I}为DB中m个不同m数据进行处理,而数值型关联规则中也可以包含种类变量。交易事务集合,其中每个事务T是项的集合,使得T哿I。每一基于规则中数据的抽象层次个交易事务有一个唯一的标识,记作TID。关联规则可以分为单层关联规则和多层关联规则。在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多定义k项集定义为项集中包含的项的个数,{A,集合个不同层次的,而在多层的关联规则中,对数据的多层性已经A,…,A}称为k项集。k进行了充分的考虑。定义若A,B为项集,A奂I,B奂I,并且AB=Φ,则形基于规则中涉及到的数据的维数如的表达式称为关联规则。AB关联规则可以分为单维的关联规则和多维的关联规则。单维的关联规则中,只涉及到数据的一个维,如用户购买的物品,定义支持度S,即任务相关的事务占总交易事务的百而在多维的关联规则中,要处理的数据将会涉及多个维。换句分比,表达为,S,AB,=P,AB,。话讲,单维关联规则是处理单个属性中的一些关系,多维关联定义规则AB具有可信度C,即在DB中包含A的规则是处理各个属性之间的某些关系。事务同时也包含的百分比,表达为,,,,。BCAB=PB,A定义设最小支持度为Smin,则DB中的k频繁模式集和k非频繁模式集分别定义为,L={A,A…A,A,kK,i=,,,k,,S,AAADB,S},L={AAKmnkil关联规则挖掘的算法,,,,,,,,,。A,Ai=kSAAADB<S}kikmin为了在DB中挖掘有效的关联规则,必须首先定义最小支经典频集方法持度S和最小可信度C,关联规则的挖掘就是在DB中寻找minminR,Agrawal等人在年设计了一个Apriori算法。该算满足S,AB,DB,S和C,AB,DB,C的所有关联规mnmnii法将关联规则挖掘分解为两个子问题,作者简介,黄海燕,,,女,江西安义人,九江学院信息科学与技术学院助教,研究方向为数据挖掘,刘欣,,,女,江西九江人,九江学院信息科学与技术学院助教,研究方向为数据挖掘。算法的核心思想如下,FPgrowth对不同长度的规则都有很好的适应性,同时在效率上较Apriori算法有巨大的提高。,,L={large一itemsets},特异关联规则,,for,k=,LΦ,k,dobegink,,C=apriorigen,L,,新的候选集kk较低支持度的项集在传统的关联规则挖掘中通常被忽略,,,foralltransactionstDdobegin而在这些被忽略的项集间常蕴藏着有价值的知识,而特异关联规则的学习正是发现被传统关联规则所忽略的有价值知识,由,,,,,,事务中包含的候选集C=subsetCtttk于这些数据出现的频率并不高,所以用传统的关联规则挖掘算,,forallcandidatescCdok,,ccount,法不能得到稀少数据间的关联性。特异关联规则挖掘的焦点集,,end中在少量的重要稀少数据上,研究稀少数据间存在的关联关,,L={cCccountminsup,}kk系。重要稀少数据是在数据库中它的频繁性小于第一支持度而,,end大于第二支持度的项集。其中,第一支持度是频繁项集发现过,,Answer=ULKK程中,用户指定支持度的阈值,第二支持度是稀少项集发现过著名的Apriori算法的主要工作在于寻找频繁项集,程中,用户指定支持度的阈值,第一支持度>第二支持度。如果它利不等式不满足,就产生了多余的规则,或不能发现稀少数据。特,即频繁项集的子集必须是频繁项用了频繁项集的向下封闭性异关联规则就是挖掘这些重要的稀少数据,从而发现这些稀少集。Apriori算法主要是由连接和剪枝完成。频集算法的几种优化方法数据之间存在的关联性。但是有一个问题是第二支持度也不能Web数据,提取藏其中的、有用的、新颖的模式或知识的过程。Web数据挖掘概述从数学角度,Web数据挖掘是指从大量Web文档结构和使用的集合C中发现隐含的模式P。如果将C看作输入,P看作输Web数据挖掘的提出原因及重要意义数据库技术和数据挖掘技术的出现与发展很大程度上取那么Web数据挖掘的过程就是从输入到输出的一个映射,出决于用户需求,对于Web数据挖掘,需求仍是提出对其研究的ζ,CP。主要原因。Web挖掘原理Web数据挖掘的定义一般地,Web数据挖掘的基本原理可以用图所示的处理从数据库技术角度,Web数据挖掘是将数据挖掘方法用于过程表示,目标数据集就是根据用户要求,从Web资源中提取重复出现,和混合维关联规则H,TOIVONENS,amplingLargeDatabasesAfossrociationRules,C,,,允许维在规则的左右同时出,,现,。ProceedingsofthendInternationalConferenceoVnery,LargeDatabas,eBombya,India,September,SAVASEREA,OmiecimkiE,NavatheS,AnefficientAlgorithmfor结束语,,MiningAssociationRulesinLargeDatabases,C,fProceedingsfthe对于关联规则的今后研究发展,可以从以下几个方面重点stInternationalConferenceonVeryhDrgatoabase,NewYork,考虑,面对海量的数据,提高算法的效率、缩短运行进程是一个ACM,,,急待解决的问题,如何在多维多层数据库中设置用户感兴趣的JHAN,MKAMBR,DataMiningConceptsandTechniqu,Me,s,,,多个支持度和可信度来挖掘更有价值的关联规则,如何有效挖MorganKaufmaPublnnishers,,掘相关的有价值的稀有项集。HYUNYOONYUNA,,DanshimHab,,BuhyunHwanga,,,,KeunHoRyuc*MiningassociationrulesonsignificantFaredatausingrelativesupport,J,,TheJournalofSystemsand参考文献,Software,,,RAGRAWAL,MiningAssociationRulesBetweeSnetsofItemsin,,LargeDatabases,C,,Washington,ProceedingsoftheACMSIGMOD,责任编辑,卓光,InternationalConferenceManagemeDntatao,f,l,MethodofAssociationRuleinDataMiningAbstract,Thisarticleintroducesthebasicconceptofassociationrule,summarizestheclassificationandkindsofexcavationalgorithmaboutassociationrule,especiallyontypicasomealgorithms,atlastforecaststhenextresearchdirectionofassociationruleexcavationlKeyWords,DataMinin,gAssociationRul,eFrequentItemsets作者简介,乔良,,,男,河北博野人,硕士,华北科技学院助教,研究方向为数据挖掘。

用户评价(0)

关闭

新课改视野下建构高中语文教学实验成果报告(32KB)

抱歉,积分不足下载失败,请稍后再试!

提示

试读已结束,如需要继续阅读或者下载,敬请购买!

文档小程序码

使用微信“扫一扫”扫码寻找文档

1

打开微信

2

扫描小程序码

3

发布寻找信息

4

等待寻找结果

我知道了
评分:

/5

数据挖掘中的关联规则方法

VIP

在线
客服

免费
邮箱

爱问共享资料服务号

扫描关注领取更多福利