数据挖掘10大算法

数据挖掘10大算法 Sunstone Zhang 编译数据挖掘者 http://idmer.blog.sohu.com 数据挖掘10大算法 Top 10 Algorithms in Data Mining ICDM 2006 Panel 12/21/2006, Coordinators: Xindong Wu and Vipin Kumar 注：ICDM的全称是IEEE International Conference on DataMining Page 2 大纲 1. 1. 三步鉴定流程三步鉴定流程 2. 1...

Sunstone Zhang 编译数据挖掘者 http://idmer.blog.sohu.com 数据挖掘10大算法 Top 10 Algorithms in Data Mining ICDM 2006 Panel 12/21/2006, Coordinators: Xindong Wu and Vipin Kumar 注：ICDM的全称是IEEE International Conference on DataMining Page 2 大纲 1. 1. 三步鉴定流程三步鉴定流程 2. 182. 18种通过审核的候选算法种通过审核的候选算法 33.. 算法陈述算法陈述 44.. 数据挖掘数据挖掘1100大算法：一览大算法：一览 55.. 开放式讨论开放式讨论 Page 3 大纲 1. 1. 三步鉴定流程三步鉴定流程 2. 182. 18种通过审核的候选算法种通过审核的候选算法 33.. 算法陈述算法陈述 44.. 数据挖掘数据挖掘1100大算法：一览大算法：一览 55.. 开放式讨论开放式讨论 Page 4 三步鉴定流程 1. 提名 (Nominations) 使用以下三个步骤来选出数据挖掘的10大算法 § 在2006年9月召开的ICDM会议上，我们邀请了ACM KDD创新大奖(Innovation Award)和 IEEE ICDM研究贡献奖(Research Contributions Award)的获奖者们来参与数据挖掘10大算法的选举，每人提名10种他认为最重要的算法 § 除一人未参与外，其他获奖者均给出了算法的提名 § 每个提名中均需同时给出以下信息： - (a) 算法名称 - (b) 提名理由摘要 - (c) 算法的代表性论文 § 每个提名算法都应该被相关领域的研究者们广泛引用和使用，每位提名者给出的同类算法应该是数据挖掘重要应用领域的代表 Page 5 三步鉴定流程 2. 审核 (Verification) 使用以下三个步骤来选出数据挖掘的10大算法 § 在2006年10月，我们通过Google Scholar对每个提名算法的引用情况进行了审核，从候选名单中删除了低于50篇论文引用的算法 § 最终剩下18种提名算法通过了审核，它们分属10类数据挖掘主题 3. 投票 (Voting) § 我们邀请了更多的专业人士来从这些候选算法中投票选出10大算法，他们包括 - (a) KDD-06、ICDM ‘06和SDM ’06的程序委员会成员 (Program Committee members) - (b) ACM KDD创新大奖和IEEE ICDM研究贡献奖的获奖者们 § 根据票数排名筛选出10大算法 (如果票数相同，则按字母顺序进行排名) Page 6 大纲 1. 1. 三步鉴定流程三步鉴定流程 2. 182. 18种通过审核的候选算法种通过审核的候选算法 33.. 算法陈述算法陈述 44.. 数据挖掘数据挖掘1100大算法：一览大算法：一览 55.. 开放式讨论开放式讨论 Page 7 18种通过审核的候选算法 § 分类 (Classification) - 1. C4.5: Quinlan, J. R. 1993. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers Inc. - 2. CART: L. Breiman, J. Friedman, R. Olshen, and C. Stone. Classification and Regression Trees. Wadsworth, Belmont, CA, 1984. - 3. K Nearest Neighbours (kNN): Hastie, T. and Tibshirani, R. 1996. Discriminant Adaptive Nearest Neighbor Classification. IEEE Trans. Pattern Anal. Mach. Intell. (TPAMI). 18, 6 (Jun. 1996), 607-616. - 4. Naive Bayes Hand, D.J., Yu, K., 2001. Idiot's Bayes: Not So Stupid After All? Internat. Statist. Rev. 69, 385-398. § 统计学习 (Statistical Learning) - 5. SVM: Vapnik, V. N. 1995. The Nature of Statistical Learning Theory. Springer-Verlag New York, Inc. - 6. EM: McLachlan, G. and Peel, D. (2000). Finite Mixture Models. J. Wiley, New York. § 关联分析 (Association Analysis) - 7. Apriori: Rakesh Agrawal and Ramakrishnan Srikant. Fast Algorithms for Mining Association Rules. In VLDB '94. - 8. FP-Tree: Han, J., Pei, J., and Yin, Y. 2000. Mining frequent patterns without candidate generation. In SIGMOD '00. C4.5 CART Naïve Bayes kNN SVM EM Apriori FP-Tree Page 8 18种通过审核的候选算法 § 链接挖掘 (Link Mining) - 9. PageRank: Brin, S. and Page, L. 1998. The anatomy of a large-scale hypertextual Web search engine. In WWW-7, 1998. - 10. HITS: Kleinberg, J. M. 1998. Authoritative sources in a hyperlinked environment. In Proceedings of the Ninth Annual ACM-SIAM Symposium on Discrete Algorithms, 1998. § 聚类 (Clustering) - 11. K-Means: MacQueen, J. B., Some methods for classification and analysis of multivariate observations, in Proc. 5th Berkeley Symp. Mathematical Statistics and Probability, 1967. - 12. BIRCH Zhang, T., Ramakrishnan, R., and Livny, M. 1996. BIRCH: an efficient data clustering method for very large databases. In SIGMOD '96. § 袋装与推进 (Bagging and Boosting) - 13. AdaBoost: Freund, Y. and Schapire, R. E. 1997. A decision-theoretic generalization of on-line learning and an application to boosting. J. Comput. Syst. Sci. 55, 1 (Aug. 1997), 119-139. PageRank HITS K-Means BIRCH AdaBoost Page 9 18种通过审核的候选算法 § 序列模式 (Sequential Patterns) - 14. GSP: Srikant, R. and Agrawal, R. 1996. Mining Sequential Patterns: Generalizations and Performance Improvements. In Proceedings of the 5th International Conference on Extending Database Technology, 1996. - 15. PrefixSpan: J. Pei, J. Han, B. Mortazavi-Asl, H. Pinto, Q. Chen, U. Dayal and M-C. Hsu. PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-Projected Pattern Growth. In ICDE '01. § 集成挖掘 (Integrated Mining) - 16. CBA: Liu, B., Hsu, W. and Ma, Y. M. Integrating classification and association rule mining. KDD-98. § 粗糙集 (Rough Sets) - 17. Finding reduct: Zdzislaw Pawlak, Rough Sets: Theoretical Aspects of Reasoning about Data, Kluwer Academic Publishers, Norwell, MA, 1992 § 图挖掘 (Graph Mining) - 18. gSpan: Yan, X. and Han, J. 2002. gSpan: Graph-Based Substructure Pattern Mining. In ICDM '02. GSP PrefixSpan CBA gSpan Finding reduct Page 10 大纲 1. 1. 三步鉴定流程三步鉴定流程 2. 182. 18种通过审核的候选算法种通过审核的候选算法 33.. 算法陈述算法陈述 44.. 数据挖掘数据挖掘1100大算法：一览大算法：一览 55.. 开放式讨论开放式讨论 Page 11 算法陈述 § 每种算法的陈述包括以下内容： - a) 算法的概要描述 - b) 算法的应用 - c) 该算法目前和未来的研究方向 § 每位陈述人会介绍自己 - 对该算法有深入的研究 - 尽量使用算法原作者的幻灯片，可以适当修改 - 提出自己对该算法的观点和意见 Page 12 大纲 1. 1. 三步鉴定流程三步鉴定流程 2. 182. 18种通过审核的候选算法种通过审核的候选算法 33.. 算法陈述算法陈述 44.. 数据挖掘数据挖掘1100大算法：一览大算法：一览 55.. 开放式讨论开放式讨论 Page 13 数据挖掘十大算法：一览表分类分类分类集装与推进链接挖掘统计学习关联分析统计学习聚类分类挖掘主题 L.Breiman Hand, D.J Hastie, T Freund, Y. Brin, S. McLachlan, G Rakesh Agrawal Vapnik, V.N MacQueen, J.B Quinlan, J.R 作者 1984 2001 1996 1997 1998 2000 1994 1995 1967 1993 发表时间 Dan Steinberg34CART10 Qiang Yang45Naïve Bayes9 Vipin Kumar45kNN8 Zhi-Hua Zhou45AdaBoost7 Christos Faloutsos46PageRank6 Joydeep Ghosh48EM5 Christos Faloutsos52Apriori4 Qiang Yang58SVM3 Joydeep Ghosh60K-Means2 Hiroshi Motoda61C4.51 讲解人得票数算法排名 Page 14 大纲 1. 1. 三步鉴定流程三步鉴定流程 2. 182. 18种通过审核的候选算法种通过审核的候选算法 33.. 算法陈述算法陈述 44.. 数据挖掘数据挖掘1100大算法：一览大算法：一览 55.. 开放式讨论开放式讨论 Page 15 开放式讨论 § 由算法的原作者和陈述人来编写调查表 § 如何更好地使用这10大算法？ § 是否需要为这10大算法专门编写一本书？ - IDMer注：该书已出版，参见右图封面。书名为《The Top Ten Algorithms in Data Mining》，编著者为XinDong Wu和Vipin Kumar § 针对这10大算法的任何问题展开讨论 Page 16 ICDM 2006会议的算法投票结果 § 共有145人参加了ICDM 2006 Panel (会议的专题讨论)，并对18种候选算法进行投票 § 开放式投票选出的前3大算法 (Top 3 Algorithms) - C4.5: 52票 - SVM: 50票 - Apriori: 33票 § 10大算法 - ICDM 2006 Panel与会者选出了前10大算法，结果和前面的“数据挖掘10大算法” 相同。 Page 17 THE END Page 18 数据挖掘10大算法(思维导图) Page 19 数据挖掘10大算法(思维导图)－C4.5

                    本文档为【数据挖掘10大算法】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

数据挖掘10大算法

你可能还喜欢