首页 基于图论的频繁模式挖掘

基于图论的频繁模式挖掘

基于图论的频繁模式挖掘计算机研究与发展 ISSN 100021239/ CN 1121777/ TP Journal of Computer Research and Development 42 (2) : 230～235 , 2005 　收稿日期 :2003 - 07 - 08 ;修回日期 :2004 - 10 - 29 　基金项目 :国家自然科学基金项目 (69933010 ,60303008) ;国家“八六三”高技术研究发展计划基金项目 (2002AA4Z3430) 　基于图论的频繁模式挖掘汪　卫　周皓峰　袁晴...

计算机研究与发展 ISSN 100021239/ CN 1121777/ TP Journal of Computer Research and Development 42 (2) : 230～235 , 2005 　收稿日期 :2003 - 07 - 08 ;修回日期 :2004 - 10 - 29 　基金项目 :国家自然科学基金项目 (69933010 ,60303008) ;国家“八六三”高技术研究发展计划基金项目 (2002AA4Z3430) 　基于图论的频繁模式挖掘汪　卫　周皓峰　袁晴晴　楼宇波　施伯乐 (复旦大学计算机与信息技术系　上海　200433) (weiwang1 @fudan1edu1cn) Mining Frequent Patterns Based on Graph Theory Wang Wei , Zhou Haofeng , Yuan Qingqing , Lou Yubo , and Sui Baile ( Depart ment of Com puting & Inf orm ation Technology , Fudan U niversity , S hanghai 200433) Abstract 　Mining the frequent pattern from data set is one of the key success stories of data mining re2 search1 Currently , most of the efforts are focused on the independent data such as the items in the market2 ing basket1 However , the objects in the real world often have close relationship with each other1 How to gain the frequent pattern from these relations is the objective of this paper1 Graphs are used to model the re2 lations , and a simple type is selected for analysis1 Combining the graph2theory and algorithms to generate f requent patterns , two new algorithms are proposed1 The first algorithm , named AM GM , is based on the Aproiri idea and makes use of matrix1 For the second algorithm , a new structure SFP2t ree and an algo2 rithm , which can mine these simple graphs more efficiently , have been proposed1 The performance of the algorithms is evaluated by experiments with synthetic datasets1 The empirical results show that they both can do the job well , while SFP performs better than AM GM1 Such algorithms are also applied in mining of the authoritative pages and communities on Web , which is useful for Web mining1 At the end of the paper , the potential improvement is mentioned1 Key words 　SFP tree ; connected frequent graph ; data mining 摘　要　对图数据频繁模式的挖掘是近年的研究热点1 选择了惟一标号图进行分析 ,结合图论和频集生成的算法 ,提出了基于 Aproiri 思想、运用矩阵乘法的 AM GM 算法和基于 SFP 树的 SFP 算法1 它们可有效地挖掘简单图中连通频繁子图1 实验表明 ,这两个算法是十分有效的 ,其中 SFP 算法的性能优于 AM GM 1 该算法还被运用于发现 Web 上的权威页面和社团 ,具有良好的效果1 关键词　SFP 树 ;频繁连通图 ;数据挖掘中图法分类号　TP301 1 　引　　言经过近 10 年的发展 ,关联规则的研究逐渐拓展到 Web 挖掘、生物信息学、购物篮分析等众多实际应用领域1 在这些应用包含大量复杂类型的数据 , 如在化学数据中由于原子与原子之间存在化学键 ,其数据构成一个图1 Web 网站的结构也是一种图的结构等1 如何对图结构数据进行关联规则分析是一项很有意义的工作1本文从标号图的连通频繁子图的分析入手 ,提出对包含结构信息的数据进行初步分析的方法 ,以求将原先对单个项的频繁模式生成工作扩展到项对的领域上1 本文在第 2 节介绍相关工作 ;在第 3 节引入标号图等基本概念 ,在此基础上提出两种算法 :基于 Aproiri 思想、利用矩阵乘法的 AM GM 算法和基于 FP2Growth 算法的 SFP 算法 ;在第 4 节中 ,将给出这两种算法的思想与实现 ,然后通过一系列实验对比说明这两种算法的特性 ;在第 6 节 ,这些算法将被运用于发现 Web 权威资源发现 ;最后给出算法的一些扩展方向1 2 　相关工作在频繁模式挖掘方面 Aproiri [1 ]算法是最著名的基于广度优先思想的算法 ,另一个是 Mannila 等人提出的 LevelWise 和 Guess & Correct 算法[2 ] ,随后 Park 等人利用 Hash 技术提出了 DHP[3 ]算法 ,而 Brin 等人提出的 DIC[4 ]算法则充分利用了动态技术的技巧1 这些工作都是为了减少在频繁项集生成过程中候选项集产生的个数1 与广度优先相对应的是深度优先算法 ,它以 Agarwal 等人的 DepthFirst [5 ]和 Tree2Project [6 ]算法为代表1 这类算法特点是适合于生成长模式1 2000 年裴健等人提出了不产生候选项集的 FP2Growth 算法[7 ] ,简化了频繁项集的生成工作 ,之后 ,又有不少工作对该算法进行了改进 ,例如 H2Mine[8 ]等 ,以求逐步提高效率1 在处理的数据对象类型方面 ,算法从最初的对购物篮数据的处理逐步演化到具有结构特性的序列数据的处理[9 ] ,Web 访问日志的处理[10 ]等1 以及化学物质结构、生物 pathway 等图类型数据1 本文针对在 Web 数据管理中广泛应用的惟一标号图提出了频繁子图的挖掘算法1 目前已有 A GM [11 ]和 FSG[12 ]两个子图的挖掘算法1 这 2 个算法都利用邻接矩阵分别对图的顶点和边进行逐层构造 ,以最终获取频繁的子图1 所不同的是 A GM 是求出了导出 (induced) 子图 ,图不一定连通 ,而 FSG则求出了连通的频繁子图1 本文提出了两种频繁子图挖掘算法 :第 1 个是基于 Aproiri 思想和处理这类方法常用的邻接矩阵的 AM GM 算法 ;第 2 个是基于 FP2Growth 思想的 SFP 算法 ,它没有使用邻接矩阵1 并以惟一标号图描述 Web 资源 ,研究了 Web 资源中 d 的权威页面 (对应于图中的频繁顶点) 和权威社团 (表征了权威页面之间的紧密关系)1 3 　基本概念在详细介绍算法之前 ,首先给出有关的基本概念和定义1 定义 11 无向简单图1 设 V = { v1 , v2 , ⋯, v n}是一个非空集合 , E = { e| e =〈 v i , v j〉, v i , v j ∈V } ,其中〈 v i , v j〉为无序对 ,并且 Πei , ej ∈E , ei ≠ej ,称 ( V , E) 为无向简单图 ,简称图 ,记为 G ( V , E) , V 中的元素为顶点 , V 为顶点集 ; E 为边集1 若结点上的标号互不相同 ,则为惟一标号图1 由于图中所有的顶点被惟一地标号 ,因此图中所有的边也由无序标号对〈 l i , l j〉惟一标定 ,记该标号边为 l il j1 下文讨论的图都是惟一标号图 ,用标号图简称1 定义 21 图数据集合1 图库 GD = { G1 , G2 , ⋯, GN} , 其中 , Gi 为标号图 , 称 N 为图库的大小 (size) ,所有标号的全体构成库标号集 L D1 定义 31 子图1 图 G′= ( V′, E′)为图 G = ( V , E) 的子图 ,当且仅当 V′Α V 且 Πv i , v j ∈V′,〈 v i , v j〉∈ E ]〈 v i , v j〉∈E′,记做 G′Α G ,或称 G 包含 G′1 定义 41 支持度1 给定图库 GD ,图 G 的支持度为 GD 中包含图 G 的图的数目1 定义 51 频繁 (子) 图1 给定图库 GD ,图 G 为频繁图 ,当且仅当 s ( G) ≥m i nsup1 m i nsup 为指定的最小支持度 ,称为阈值1 定义 61 连通图1 设 u 和 v 是图 G 的两个不同的顶点 ,若 u 和 v 之间存在一条路 ,则称顶点 u 和 v 是连通的1 若图 G 中任何两个不同顶点之间存在一条路 ,则称 G 为连通图 ,否则称 G 为不连通图1 本文的目标是在给定标号图库中 ,找出该图库中所有的频繁连通子图1 4 　生成频繁连通图假设图数据以以下的格式存储 ,如表 1 所示 : Table 1 　A Sample of Graph 表 1 　图的例子 GID EID … … 23 AB ,BD ,〈B〉⋯ … … 表 1 中 , GID 代表标号图的 ID 号 , EID 是图中边的列表1 图中每条边都以 l il j 形式存储 ,每条边的两个顶点以字母序排序1 132汪　卫等 :基于图论的频繁模式挖掘 411 　AMGM 算法 AM GM 算法是基于 Aproiri 的 ,它采用逐层构造的方法 :先构造只含有一条边的频繁子图 ;然后以此为基础构造含两条边的候选连通子图 ,通过扫描数据库找到含有两条边的频繁连通图集1 以此类推 ,从含有 k 条边 ( k2阶) 的频繁连通图找到 k + 1 2 阶的候选连通图集 ,根据最小支持度 ,找到 k + 1 阶的频繁连通图集1 AM GM 算法采用邻接矩阵存储图数据 ,在矩阵中行坐标为边 ,列坐标为图1 由于点集的标号有限 , 所以边的数目也是有限的 ,而且该数目不大于 C2n1 AM GM 算法的描述如下 : 算法 11 A proiriMatrixGraphMining( GD , minsup)1 输入 :图库 GD ,最小支持度 m i nsup1 输出 :频繁连通图集 F1 {扫描 GD ,统计 GD 所有点集 V 和边集 E , E 为 12阶候选集合 C1 F0 = { v | v ∈V , s ( v) ≥m i nsup} 计算 C1 中各边的 support ,生成 12阶频繁连通图集 F1 C2 = gent w ocandi date ( F1 ) / 3 生成 22阶候选连通图集 3 / for ( k = 2 ; ; k + + ) 　{计算 Ck 中各子图的支持度　 Fk = { g| g ∈Ck , s ( g) ≥m i nsup} 　 if ( Fk = §) 算法结束　 Ck + 1 = gencandi date ( Fk) 　 if ( Ck + 1 = §) 算法结束} } 该算法首先扫描数据库 ,并将符合支持度的点作为频繁图输出1 再利用符合支持度的边的信息构造矩阵 A ( A 中行向量为边 , 列向量为图库中的图)1然后生成含有两条边的候选连通图 ,并计算其支持度 ,将频繁的连通图输出1 然后生成下一轮的候选连通图1 为了计算 Ci 中每个候选子图的支持度 , Ci 也用矩阵表示 ,行向量为候选图边 ,列向量为边的集合1通过计算 B i = Ci ×A 可以得到频繁图同图库中的图包含关系 ,通过将 B i 同一个只有一列的且元素全为 1 的矩阵相乘可以得到每个候选图的支持度1 算法中关键的一步是候选图集的生成1 与 Aproiri 算法类似 ,我们首先耀确定那些 k2阶频繁图可以合并生成 k + 1 2阶候选图1 Gencandi date 过程的描述如下所示1 Gencandi date ( Fk) { C′k 为 Fk 对应的矩阵 Dk = C′k ×( C′k ) T / 3 Dk 中置 1 的位 d ij代表了第 i 个图可以与第 j 个图进行合并构成一个新的 k + 12阶的图 for ( i = 1 , k = 0 ; i ≤s′; i + + ) 　for ( j = i + 1 ; j ≤s′; j + + ) 　{ if ( d ij ! = 0) 　　C′k 的第 i 行与第 j 行进行“按位与”运算后加入矩阵 Ck + 1} 　　删除 Ck + 1中的重复图　　返回 ( Ck + 1) } 由于算法通过有公共 k - 1 条边的 k2阶图生成 k + 12阶图 ,所以除了从 12阶频繁集生成 22阶候选集这一步外 ,均能保证了图的连通性1 由于算法中组成图的两个单边的图有公共顶点 ,因此所得的图均连通1 412 　基于 FP2Growth 思想的 SFP 算法与 Aproiri 类似 ,在 AM GM 算法中候选图集的生成和支持度计算仍是瓶颈1 本文提出了基于 FP2 Growth 的 SFP 算法1 SFP 算法的工作分为 2 步 :构建 SFP 树和从 SFP 树中获取频繁连通图1 SFP 树是一棵包含结构信息的 FP2树1 在树的每个结点上 ,不仅记录下该结点所代表的标号边及其支持度 ,还记录该结点与该结点所在的树分支中其他结点的连接信息1 与 FP2树一样 ,算法维持用于索引树中标号头表1 该表以支持度从大到小排序1 另外 ,建树时还临时保留于生成只包含一个点的频繁图集的标号顶点表1 构建 SFP 树的算法如下所示1 算法 21 FP 树的构建1 输入 :图库 GD ,最小支持度 m i nsup1 输出 :一棵 FP 树1 方法 : const ructS FPt ree ( GD , m i nsup) { FV 为记录 GD 中各顶点支持度的列表 FE 为记录 GD 中各边支持度的列表将支持度初始化为 0 对 GD 中的每个图 g {得到 g 的顶点集 V g 和边集 Eg 所有的 v ∈V g ,修改 FV 中的对应项所有的 e ∈Eg ,修改 FE 中的对应项} for 所有 v ∈FV , do if ( v1 support ≥m i nsup) 输出 ( v , v1 support) 将 FE 中的边按支持度从大到小排序删除 FE 中不满足支持度的边 232 计算机研究与发展　2005 , 42 (2) / 3 FE 构成 FP 树的头表 3 / 初始化 FP 树 T ,建立根结点 ,并标志为“空” for all g ∈GD{ 　按照 FE 中的顺序 ,对 g 中的频繁边进行排序　insert ( [ e| E ] , T) 　return ( T) } } insert ( [ e| E ] , T) {if ( T 有一个子女结点 N 并且 N 1 edgei d = e1 edgei d) 　N 1 count + + else{ 创建新的结点 N ,并且 N 1 edgei d = e1 edgei d , N 1 count = 1 , N 1 parent = T 将 N 链接到头表中将 N 与它所有有关的祖先结点建立双向链接 if ( E ≠§) insert ( E , N ) 　return ( T) } } 该算法扫描 2 次图数据集1 第 1 次扫描建立用于索引的头表1 头表中记录边的有关信息 ,如边的标号、支持度 ,并对图中的顶点利用标号顶点表计数1第 1 遍扫描完成后 ,利用支持度阈值进行过滤 , 并将已符合支持度的点作为频繁图输出1 在第 2 次扫描中将剔除不符合支持度的边和孤立点 ,将余下的边按其在头表中的支持度从大到小按照路径加入到 SFP 树中1 加入结点时 ,首先判定该结点在特定分支上是否存在1 如存在 ,则只增加支持度 ;否则 ,建立新的结点 ,并与其相连接祖先结点进行双向连接1 下面将利用 SFP 树构建连通频繁图1 算法 31 挖掘频繁连通图集1 输入 :SFP 树 T ,最小支持度 m i nsup1 输出 :频繁连通图集1 方法 :递归调用 S FPM i ni ng 过程 ,初始调用为 S FPM i ni ng ( T ,NULL) S FPM i ni ng ( T ree ,α) {对于 T ree 的头表中的每一项 ai , do 　{ if ( i < n - 1) then return 　β = union (α, ai ) , 并且 β1 support = ai1 support 　if β是连通图 , then 输出 (β,β1 support) 　生成β的条件数据库 Dβ 　T reeβ= const ructCS FP( Dβ) 　If ( Treeβ≠§) then S FPMining ( Treeβ,β) } } 算法利用 SFP 树的头表自下而上地依次从 SFP 树中抽取连通频繁图1 对于每个头表中的标号边 ai ,将其与生成目前的 SFP 树的前缀模式α合并1如果 ai 和α合成后是连通的 ,则作为结果输出1 然后 ,对 ai 和α构成的新的前缀模式β,在当前的 SFP树上 ,生成β的条件图库 ,并调用 constructCS FP 算法生成β条件 SFP 树 ,以递归进行挖掘 ,直至不再生成新的 SFP 树1 constructCS FP算法与 constructS FP 基本类似 ,惟一区别在于它不必考虑顶点频繁的问题 ,只要考虑边的情况1 这个算法的核心包括 2 部分 :β的生成和连通性的判定和β条件图库的生成1 β本身的生成和连通性的判定利用顶点的标号完成1 判定方法如下所示1 算法 41β的生成和连通性判定1 假定α=γ1 ∪γ2 ∪⋯∪γn ,这里 i (1 ≤i ≤n) 是连通子图 , Πγi ,γj (1 ≤i , j ≤n) 不连通1 Pi ( i = 1 , ⋯ n) 为组成γi 中所有边的点的集合 ,并且 P = ∪Pi1 显然 , ΠPi , Pj ( i ≠j) Pi ∩Pj = §1 假定 ai =〈 v , w〉, union (α, ai) {for all Pi , Pj in P { if v ∈Pi , w ∈Pj{β= (α- γi - γj ) ∪(γi ∪γj ∪{ ai} ) } if v ∈Pi , w | Pj{β= (α- γi) ∪(γi ∪{ ai} ) } if v | Pi , w ∈Pj{β= (α- γj) ∪(γj ∪{ ai} ) } if v | Pi , w | Pj{β=α∪{ ai} } } } 例 11 给定 a1 =〈1 ,3〉, a2 =〈2 ,7〉, a3 =〈7 ,8〉, 以及α= {〈1 , 2〉,〈2 , 6〉,〈3 , 4〉,〈4 , 5〉〈3 , 5〉} = {〈1 ,2〉,〈2 ,6〉} ∩{〈3 ,4〉,〈4 ,5〉〈3 ,5〉} 1 这里 ,前缀模式α由两个连通子图构成 ,这两个部分互不相连1 我们可以根据算法 3 计算以下 3 个集合 : β1 = union (α, a1) = {〈1 , 2〉,〈2 , 6〉,〈1 , 3〉,〈3 , 4〉,〈4 ,5〉,〈3 ,5〉}1 这个计算根据的是第 1 条规则 , 显然它是连通的1 β2 = union (α, a2) = {〈1 , 2〉,〈2 , 6〉,〈2 , 7〉,〈3 , 4〉,〈4 , 5〉,〈3 , 5〉} = {〈1 , 2〉,〈2 , 6〉,〈2 , 7〉} ∩{〈3 , 4〉,〈4 ,5〉,〈3 , 5〉} ,根据规则 2 ,形成的是两个连通分量1 β3 = union (α, a3) = {〈1 , 2〉,〈2 , 6〉,〈3 , 4〉,〈4 , 5〉,〈3 , 5〉,〈7 , 8〉} = {〈1 , 2〉,〈2 , 6〉} ∩{〈3 , 4〉,〈4 , 5〉,〈3 ,5〉} ∩{〈7 ,8〉} ,根据第 3 条规则 ,形成 3 个连通分量1 另外 ,当α有 n 个互不连通的连通子图时 ,要将这些子图连通起来 ,至少需要 n - 1 条边 ,因此 , 如果头表中 ai ( i > 0) 的下标 i 一旦小于 n - 1 ,则不可能在α的基础上产生连通图 ,因此可以直接返回上一层的递归调用 ,而不必进行下面的工作1 332汪　卫等 :基于图论的频繁模式挖掘为了提高效率 ,β条件图库生成时可利用连通关系剔除今后对图的连通性无用的边1 当前的 SFP 树是前缀模式α的条件 SFP 树 ,因此 ,我们对于当前树中每一个标号为 ai 的结点 ,自该结点沿树的分支一直向上到根 ,路径上的所有能与 ai 连通的结点或者能与α连通的结点将构成β条件图库中的一个图1 这样可以剔除那些既不与α连通 ,又不与 ai 连通的点1 同时考虑与 ai 连通的边和与α连通的边也可以避免 ,有的边不能在分支上与 ai 连通 ,但却可以通过α与 ai 其连通 ,反之亦然1 5 　实验与分析测试环境为 PIII800 ,512MB 的 RAM1 算法用标准的 C ++库编写 ,在 Windows 2000 Server 上测试1 测试数据生成有 5 个参数 :标号点集的大小 N ,图数据集合的大小| D | ,是否连通 ,图中的平均顶点数| T | 和图中边的数目| E| 1 生成的测试数据值服从正态分布1 首先生成标号点的全集 ,然后按照图数据集合的大小逐个生成图 ,根据每个图的平均顶点数 ,按正态分布函数生成实际的顶点数 ,并从标号点全集中随机挑选出符合相应的标号点 ,生成标号边1 AM GM 算法只扫描数据库一遍 , 每一条边用 1b 表示 ,矩阵的运算基本都是位运算1 但随着数据量的增大 ,矩阵随之增大1 而 SFP 算法摒弃了候选图集的生成工作 ,虽然在构造时要考虑连通性 ,但总体讲 ,代价比候选图集生成小得多1 我们对两个算法进行了测试以进行比较1 我们做了如下 3 项测试 : (1) 对于一定大小的图集 ( | D | = 200 , | T | = 20) ,测试运行时间随支持度的变化情况 (结果见图 1)1 Fig1 1 　The performance and support1 图 1 　运行时间与支持度 (2) 对于一定大小的图集 ( | D | = 200) 和支持度 15 % ,测试运行时间随顶点数的变化情况 (结果见图 2)1 (3) 对于一定大小的图 ( | T | = 20) 和支持度 15 % ,测试运行时间随图数的变化情况 (结果见图 3)1 Fig1 2 　The performance and number of nodes1 图 2 　运行时间与平均顶点个数 Fig1 3 　The performance and size of graph database1 图 3 　运行时间与图库大小　　由实验结果可以看到 SFP 比 AM GM 的性能高很多 ,特别在支持度小和数据规模大的时候1 6 　利用惟一标号图的频繁模式发现权威 Web 资源　　权威网页和权威社团的获取是 Web 检索中的重要问题1 我们基于 SFP 实现了一个权威社团的获取系统1 为了获取 Web 网页 ,我们实现了一个抓取网页的工具 pageSnagger ,它以搜索引擎返回的结果为种子 ,抓取这些网页链接的网页 ,本文设置搜索的页面深度为 2 1 对获取的网页生成 Web 网页图库 GD 1 然后对 GD 应用 SFP 算法 ,获得最频繁出现的社团 ,所谓社团就是那些针对某一主题 ,相互之间具有协作关系的网页集合1 这些社团和我们所关心的主题高度相符1 在本文中就是频繁出现的网页结构1 我们以 XML 作为检索词 ,对返回的结构构造图库 ,以 13 作为最小频繁度 ,则找到 14 个网页 ,利用 SFP 进行分析1 可以获得两个最大的频繁子图 , 它们分别以 w31org 和 xml1com 为中心1 7 　结　　论本文针对惟一标号图提出能生成连通频繁图的 AM GM 算法和 SFP 算法 ,相比之下 ,SFP 算法的性能更优于 AM GM 算法1 今后的工作将主要放在如何从非惟一标号的图中产生连通频繁图方面1 参考文献 1 Rakesh Agrawal , Ramakrishnan Srikant1 Fast algorithms for min2 432 计算机研究与发展　2005 , 42 (2) ing association rules in large databases1 VLDB1994 , Santiago , Chile , 1994 2 Heikki Mannila , et al11 Search and borders of theories in knowl2 edge discovery1 Data Mining and Knowledge Discovery , 1997 , 1 (3) : 241～258 3 Jong Soo Park , et al11 An effective Hash based algorithm for min2 ing association rules1 SIGMOD1995 , San Jose , USA , 1995 4 Sergey Brin , et al11 Dynamic itemset counting and implication rules for market basket data1 SIGMOD1997 , Tucson , USA , 1997 5 Ramesh C1 Agarwal , et al11 Depth first generation of long pat2 terns , KDD 2000 , Boston , USA , 2000 6 Ramesh C1 Agarwal , et al11 A tree projection algorithm for gen2 eration of frequent itemsets1 J1 of Parallel and Distributed Com2 puting , 2001 , 61 (3) : 350～371 7 Jiawei Han , Jian Pei , Yiwen Yin1 Mining frequent patterns with2 out candidate generation1 SIGMOD2000 , Dallas , USA , 2000 8 J1 Pei , et al11 H2Mine : Hyper2structure mining of frequent pat2 terns in large databases1 ICDM’01 , San Jose , CA , 2001 9 Mike Perkowitz , Oren Etzioni1 Adaptive sites : Automatically learning from user access patterns1 WWW’97 , Santa Clara , 1997 10 J1 Pei , et al11 PrefixSpan : Mining sequential patterns efficiently by prefix2projected pattern growth1 ICDE’01 , Heidelberg , 2001 11 Akihiro Inokuchi , et al11 An apriori2based algorithm for mining frequent substructures from graph data1 PD KK2000 , Lyon , France , 2000 12 Michihiro Kuramochi , et al11 Frequent subgraph discovery1 ICDM 2001 , San Jose , USA , 2001 Wang Wei , born in 19701 Received Ph1D1 degree in computer science from Fudan Uni2 versity in 19981 Now he is a professor in Fu2 dan University1 His current research inter2 ests include database , data mining and man2 agement of XML data1 汪卫 ,1970 年生 ,博士 ,教授 ,主要研究方向为数据库技术、数据挖掘、XML 数据管理1 Zhou Haofeng , born in 19751 He received Ph1D1 degree in Computer Science from Fu2 dan University in 20031 Now he is working with IBM1 His current research interests in2 clude database , data mining1 周皓峰 ,1975 年生 ,博士 ,主要研究方向为数据挖掘1 Yuan Qingqing , born in 19751 She received master degree in computer science from Fu2 dan University in 20031 Now she is a Ph1 D1 candidate in computer science of UCSB1 Her current research interests include database , data mining1 袁晴晴 ,1978 年生 ,博士研究生 ,主要研究方向为数据挖掘1 Lou Yubo , born in 19751 He received mas2 ter degree in computer science from Fudan University in 20031 His current research in2 terests include database , data mining , etc1 楼宇波 ,1978 年生 ,硕士 ,主要研究方向为数据挖掘1 Shi Baile , born in 19351 Professor and Ph. D. supervisor in Fudan University1 His cur2 rent research interests include database , data mining , digital library and security database1 施伯乐 ,1935 年生 ,教授 ,博士生导师 ,主要研究方向为数据库系统及其应用、数据仓库与数据挖掘、数字图书馆、安全数据库1 Research Background Mining the frequent pattern from data set is one of the key success stories of data mining research1 Currently , most of the efforts are focused on the independent data such as the items in the marketing basket1 However , the objects in the real world often have close relationship with each other1 For example the structure of molecule and the map of web site can all be described by graph data1 The structure of XML data can be considered as a tree (a special kind of graph) 1 How to gain the frequent pattern from these graph data is the objective in this paper1 We select a simple type graph (the labels in the node are unique) for analysis1 Combining the graph2the2 ory and algorithms to generate frequent patterns , two new algorithms are proposed1 This paper is supported by the following projects : (1) The key project of NSFC“Research on the key techniques of digital library”; (2) The project of NSFC“The techniques of query and manage aggregate data”; (3) The 863 High Tech Plan“Web based Database new techniques”1 532汪　卫等 :基于图论的频繁模式挖掘

                    本文档为【基于图论的频繁模式挖掘】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

基于图论的频繁模式挖掘

你可能还喜欢