关联规则挖掘研究综述

关联规则挖掘研究综述网络财富 2009年4月 26 网络财富・ Intemet fortune・Management Vision 管理视野消耗、最少废弃”为目标，其核心思想是 “变废物为财富”，提高应急军需保障资源的利用效率。在具体的应急军需保障过程中，可以通过发展节约型军需保障资源和废弃资源的回收再利用，充分挖掘应急军需资源的可持续潜力。比如在高寒地区处突、反恐过程中，车辆的废弃配件可以用来制作野战炊事单元，热食制作过程中的热能收集还可以进行热水供应，方便战士饮用或洗澡。参考文献 [1]胡延川....

网络财富 2009年4月 26 网络财富・ Intemet fortune・Management Vision 管理视野消耗、最少废弃”为目标，其核心思想是 “变废物为财富”，提高应急军需保障资源的利用效率。在具体的应急军需保障过程中，可以通过发展节约型军需保障资源和废弃资源的回收再利用，充分挖掘应急军需资源的可持续潜力。比如在高寒地区处突、反恐过程中，车辆的废弃配件可以用来制作野战炊事单元，热食制作过程中的热能收集还可以进行热水供应，方便战士饮用或洗澡。参考文献 [1]胡延川.武警部队处突反恐经济准备与保障[M].北京: 人民武警出版社,2006. [2]杨雪峰.循环经济运行机制研究[M].北京:商务印书馆,2008. 关联规则挖掘研究综述廖伟国1，张宏书2 (1.华南农业大学珠江学院，广东从化 510980；2.黄冈职业技术学院，湖北黄冈 438002) 【摘要】关联规则挖掘是数据挖掘的一个重要分支，它是指在大量数据中项集之间的有趣的关联或相关联系。本文介绍了当前关联规则挖掘的研究情况，分析了传统的关联规则挖掘算法的不足，介绍了几种优化算法。最后，展望了关联规则挖掘的研究方向。【关键词】关联规则；Apriori；FP-tree；数据挖掘前言 (1)数据挖掘产生背景。数据挖掘是一门汇集统计学、机器学习、数据库、模式识别、知识获取、专家系统、数据可视化和高性能计算等多种学科的新兴交叉学科，这个领域融合了多个不同学科领域的技术和成果，使其方法表现出多种多样的形式。为自动和智能地把海量的数据转化为有用的信息知识提供了有力的手段，给数据和知识之间的鸿沟架设了方便之桥。 (2)课题研究的意义和目的。目前，数据挖掘这项新技术已经得到社会的认同，从普通的(比如超市业务数据、信用卡使用记录、电话呼叫清单等) 到不太普通的(比如天体图像、分子数据库和医疗记录)，都离不开数据挖掘技术的支持。国外在数据挖掘领域研究的内容十分广泛，从挖掘的知识种类看，也取得明显的成果，研究重点从发现方法逐步转向系统应用。而在国内相应的理论和算法研究上还比较薄弱，相关的论文资料和研究成果比较少，能为关联规则提供一些理论和概念上的信息，并把基于关联规则的数据挖掘方法具体应用到实际中去。对本次研究具有十分重要的意义。 1.关联规则 1.1 关联规则的基本概念在设I={ }1 2, ,... mi i i 是二进制文字的集合，其中的元素称为项(item)。记D为交易 (transaction)T的集合，这里交易T是项的集合，并且T ⊆ I。对应每一个交易有惟一的标识，如交易号，记作TID。设X 是一个I中项的集合，如果X⊆ T，那么称交易T包含X。一个关联规则是形如X⇒ Y的蕴涵式，这里X⊂ I，Y⊂ I，并且X∩ Y=φ 。规则X⇒ Y在交易数据库D中的支持度(support)是交易集中包含X和Y的交易数与所有交易数之比，记为support(X⇒ Y)，即support(X⇒ Y)=|{T：X∪Y⊆ T，T ∈D}|/|D|。规则 X ⇒ Y 在交易集中的置信度 (confidence)是指包含X和Y的交易数与包含X的交易数之比，记为confidence( X ⇒Y)，即confidence(X⇒Y)=|{T：X∪Y⊆ T，T∈D}|/|{T：X⊆T，T∈D}|。项的集合称为项集(itemset)。包含 k个项的项集称为k-项集。项集的出现频率是包含项集的事务数，简称为项集的频率、支持度或计数。如果项集满足最小支持度(由用户或领域专家设定)，则称它为频繁项集。给定一个交易集D，挖掘关联规则问题就是产生支持度和置信度分别大于最小支持度(minsupp)和最小置信度 (minconf)的关联规则。关联规则挖掘主要是强规则挖掘，一般由发现大项目集和生成强规则两部分组成。具体步骤为： (1)找出存在于事物数据库中的所有大项目集：先计算候选1-项集(k-项集是含有k 个项目的集合)，找出频繁1-项集；根据频繁1-项集，确定候选2-项集，找出频繁2-项集，……依次类推，直到不再有候选项集为止。最后得到的项集就是所求的大项集。 (2)用大项集按生成规则和置信度产生所需要的强规则。 1.2 关联规则种类 1.2.1 按变量的类别基于规则中处理的变量的类别，关联规则可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的，它显示了这些变量之间的关系。数值型关联规则可以和多维关联或多层关联规则结合起来，对数值型字段进行处理，将其进行动态的分割，或者直接对原始的数据进行处理。 1.2.2 按数据的抽象层次基于规则中数据的抽象层次，可以分为单层关联规则和多层关联规则。在单层关联规则中，所有的变量都没有考虑到现实的数据是具有多个不同的层次的。在多层关联规则中，对数据的多层性进行了充分的考虑。 1.2.3 按数据的维数基于规则中涉及到的数据的维数，关联规则可以分为单维和多维。单维关联规则是处理单个属性中的一些关系；多维关联规则是处理各个属性之间的某些关系。 1.3 经典的频集算法 Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则[1]，并设计了一个基本算法，其核心是基于频集理论的递推方法，即基于两阶段频集思想的方法，将关联规则的设计分解为两个子问题：①发现频集。这个子问题是最重要的，开销最大，因此，各种算法主要致力于提高发现频集的效率。②根据所获得的频繁项集，产生强关联规则。根据定义这些规则必须满足信任度阈值。由于步骤 ②中的操作极为简单，因此挖掘关联规则的整个性能就由步骤①中的操作处理所决定。该算法利用了如下两个基本性质：性质1：任何频集的子集必定是频集。性质2：任何非频繁项集的超集必定是非频繁项集。算法的基本思想：首先找出所有的频集，然后由频集产生强关联规则。 Apriori核心算法分析 Apriori算法是由Agrawal等于1994年提出的，其基本思路是重复扫描数据库。其核心程序简要描述如下： L1={large1－itemsets}； for(k=2；Lk - 1≠φ ；k++)do begin 2009年4月网络财富 27 Management Vision・Intemet fortune ・网络财富管理视野 Ck=apriori_gen(Lk - 1)；∥新的候选集 for all transactions t∈D do begin Ct=subset (Ck，t)；∥事务t中包含的候选集do for all candidates c∈Ct c．count++； end Lk={c∈Ck|c.count≥ minsup}end Answer=∪k Lk ；算法执行过程可能产生大量的候选集，以及可能需要重复扫描数据库，这是 Apriori算法的主要缺点。 1.4 频集算法的优化 1.4.1 杂凑算法 Park等在1995年提出了一个高效地产生频集的基于杂凑(hash)的算法—— Dynamic Hashing and Pruning(DHP)算法[3]。通过实验可以发现寻找频集主要的计算是在生成频繁2-项集上。DHP利用一个杂凑表在计算频繁1-项集时先大概计算出2-项集的支持度，从而减少了候选2-项集的数量。 1.4.2 划分 Savasere等设计了一个基于划分的算法，这个算法把数据库从逻辑上分成几个互不相交的块，每次单独考虑一个分块并对它生成所有的频集，然后把产生的频集合并，用来生成所有可能的频集，最后计算这些项集的支持度。Partition算法很大程度上减小了I/O负载，但在处理高项集时存在一些问题，而且它可能导致频集的错误处理。 1.4.3 采样 Sampling算法是由Toivenen提出的。其基本思想是对给定数据的一个子集进行挖掘，其核心是随机从数据集D中采集样本S，然后搜索S中的频繁项集。样本S的大小以能够在内存中完成频繁项集的挖掘为准。因此，整个算法只需要扫描一遍数据库，由于搜索的是S中的频繁项集而不是D中的，可能漏掉一些全局的频繁项集。这是一种以效率换取准确性的方法，在对于效率要求较高的应用场合极具意义和重要性。 1.4.4 动态项集计数 Brin等人提出了动态项集计数算法。该算法在添加一个新的候选集之前，先估计一下是不是它的所有子集都是频繁的。该算法把数据库分成若干个特定大小的区间，首先计算候选-1项目集在第一个区间上的支持度，根据这些支持度产生候选2-项目集，并且2-项目集的支持度和1-项目集的支持度在剩余的区间上继续计算。算法的停止条件是没有新的候选集产生和所有候选集都在整个数据库上计算了支持度。该算法通过区间划分减少了遍历数据库的次数，但是它的性能也是和数据分布密切相关的。 1.4.5 基于栈变换的算法惠晓滨等提出了一个基于频繁模式栈变换的高效关联规则算法，该算法采用一种频繁模式栈的数据结构来储存所有的频繁模式信息，所有的栈单元都具有偏序关系，并分成构造算法和变换算法两个子算法，算法效率提高，且在数据集的记录数较大时有很好的线性性和伸缩性。综上，基于Apriori的频集方法即使进行一些优化，但是Apriori方法一些固有的缺陷还是无法克服：①Apriori可能产生大量的候选集；②生成候选项目时由于模式匹配引起巨大时空开销。 1.5 FP-tree频集算法 J Han等提出了不产生候选频繁项集的方法：FP-树频集算法。该算法采用分而治之的策略，在经过第一遍扫描之后，把数据库中的频集压缩进一棵频繁模式树(FP- tree)，同时依然保留其中的关联信息，随后再将FP-tree分化成一些条件库每个库和一个长度为1的频集相关，然后再对这些条件库分别进行挖掘。FP-growth只需对数据库进行两次扫描，而且避免了产生大量候选集的问题。实验表明：FP-growth对不同长度的规则具有很好的适应性，同时在效率上较之Apriori算法有很大的提高。 1.6 基于约束的关联规则在实际应用中，用户通常对关联规则的子感兴趣，即用户只想看到某些项目间的关联关系。为此Srikant等提出了基于约束的关联规则(constrain - based association rules)，其中约束用布尔表示，例如： (夹克衫∧皮鞋)∨((descendants(衣服)∧ancestors(旅游鞋))就表示对规则的约束，该规则中要么包含夹克衫和皮鞋，要么包含衣服的后代(descendants)，但不包含旅游鞋的前辈(ancestors)。该算法没有采取先发现所有的规则再修剪不满足约束的规则，而是直接把约束结合到算法中去，大大提高了规则发现的效率。 1.6.1 变支持度关联规则上述的关联规则挖掘算法均存在两大前提，即：①数据库中各项目有相同的性质和作用；②数据库中各项目的分布是均匀的。然而，实际往往并非如此，当数据库中项目分布不均匀而出现频率相差较大时，会导致最低支持度设高设低都存在问题：设高了，会漏掉很多有趣的规则；设低了，会引到大量没有意义乃至虚假的关联规则，甚至还会导致组合爆炸。所以，在挖掘关联规则时，如果项目之间在出现频率和重要性上存在很大差异时，不能为所有项目设定一个统一的支持度阈值。对此，有两种不同的解决方式：加权支持度和多支持度。 1.6.2 加权支持度关联规则挖掘加权支持度是指必须考虑支持度和权重两个因素，即加权关联规则挖掘算法在计算支持度时，既要考虑规则中所有项目在数据库中同时出现的频率，也要考虑所有项目的加权值。由于，一方面不能忽略低权值项目，另一方面在加权关联规则模型中，频繁项目集不再具有向下封闭性，因此不能采用 Apriori算法及其优化算法。文献[4]从技术角度给出了两个加权关联规则的挖掘算法： MINWAL(O)和MINWAL(W)算法。文献[5]中提出了一种改进的加权关联规则算法，能有效地考虑布尔型属性的重要性和规则中所含属性的个数。 1.6.3 多支持度关联规则挖掘多支持度是指对每个项目都设置一个支持度阈值，即一种多最小支持度策略。文献[5]中给出了一种多支持度关联规则挖掘算法——MSapiori算法，该算法是通过对Apriori算法进行一些修改而得到的。对于一个项目集来说，其支持度阈值为该项目集中的项目支持度阈值的最小值，频繁项目集就失去了向下封闭性。因此，当用 MSapriori算法得到频繁项目集以后还需要计算频繁项目集的所有子集的支持度，这又将带来很大的时空开销。在文献[6]中提出了多支持度关联规则挖掘算法的改进算法—— MIS-tree算法和CFP-growth算法。 2.总结数据挖掘技术是数据库技术发展到一定阶段后产生的新兴技术，它的目的是采用有效的算法，从大量现有的数据集合中发现并找出最初未知，但最终可理解的有用知识，并用简明的方式显示出来。挖掘关联规则是数据挖掘的一个重要方面。本文从关联规则的基本概念出发，介绍了经典的频集挖掘算法，并在此基础上对五种优化的频集算法进行了分析，同时对FP-tree频集算法和基于约束的关联规则进行了阐述。参考文献 [1]Han J W,Kamber M.数据挖掘:概念与技术[M].北京:机械工业出版社,2001. [2]Agrawal R,Imielinski T,Swami A.Mining Association Rules between Sets of Items in Large Databases[C].In: Proc of the ACM SIGMOD International conference on Management of Data,Washington DC,1993:207-216. [3]刘红岩,陈剑,陈国青.数据挖掘中的数据分类算法综述[J].清华大学学报(自然科学版),2002,42(6):727-730. [4]Srikant R,Agrawal R. Mining generalized association rules[A]. Proceedings of the 21th International Conference on Very Large Databases[C].Zurich,Switzerland,Sept,1995:407-419. [5]Srikant R,AgrawalR. Mining quantitative association rules in large relational tables [A].Proc of the 1996 ACM SIGMOD Int’l Conf on Management Of Data[M]. Montreal,Quebee,Canada:ACM Press,1996:1-12. [6]周欣,沙朝锋,朱扬勇等.兴趣度——关联规则的另一个阈值[J].计算机研究与发展,2000,37(5):627-633.

                    本文档为【关联规则挖掘研究综述】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

关联规则挖掘研究综述

你可能还喜欢