首页 %88%86论坛-基于云计算的海量数据挖掘++何清7

%88%86论坛-基于云计算的海量数据挖掘++何清7

举报
开通vip

%88%86论坛-基于云计算的海量数据挖掘++何清7 基于云计算的海量数据挖掘基于云计算的海量数据挖掘 清何清 中 科学院计算技术 究所中国科学院计算技术研究所 http://js caseducation cn/JS/~heqinghttp://js.caseducation.cn/JS/ heqing Email: heq@ics.ict.ac.cn 1中国科学院计算技术研究所2010-5-24 内容提要内容提要 算 起• 云计算的兴起 数据挖掘发展历程• 数据挖掘发展历程 • 云数据挖掘实践• 云数据挖掘实践 • 云数据挖掘未来走向云数据挖掘未来...

%88%86论坛-基于云计算的海量数据挖掘++何清7
基于云计算的海量数据挖掘基于云计算的海量数据挖掘 清何清 中 科学院计算技术 究所中国科学院计算技术研究所 http://js caseducation cn/JS/~heqinghttp://js.caseducation.cn/JS/ heqing Email: heq@ics.ict.ac.cn 1中国科学院计算技术研究所2010-5-24 内容提要内容提要 算 起• 云计算的兴起 数据挖掘发展历程• 数据挖掘发展历程 • 云数据挖掘实践• 云数据挖掘实践 • 云数据挖掘未来走向云数据挖掘未来走向 2中国科学院计算技术研究所2010-5-24 云计算的定义云计算的定义 Wiki di Cl d i i I b d• Wikipedia: Cloud computing is Internet‐based computing, whereby shared resources, software and information are provided to computers andand information are provided to computers and other devices on‐demand, like the electricity grid. It describes a new supplement, consumption and  delivery model for IT services based on the Internet,  and it typically involves the provision of dynamically  scalable and often virtualized resources as a servicescalable and often virtualized resources as a service  over the Internet  3中国科学院计算技术研究所2010-5-24 云计算的定义云计算的定义 云计算是 种基于互联网的 大众参与的计算模式• 云计算是一种基于互联网的、大众参与的计算模式, 其计算资源(计算能力、存储能力、交互能力)是 动态、可伸缩、且被虚拟化的,以服务的方式提供动态、可伸缩、且被虚拟化的,以服务的方式提供 • 云计算是并行计算(Parallel Computing)、分布式计算 (Di ib d C i )和网格计算(G id C i )(Distributed Computing)和网格计算(Grid Computing) 的发展,或者说是这些计算机科学概念的商业实现 • 云计算是虚拟化 (Virtualization)、效用计算 (Utility Computing)、IaaS(基础设施即服务)、PaaS(平台即服 务) S S(软件即服务)等概念混合演进并跃升的结务)、SaaS(软件即服务)等概念混合演进并跃升的结 果 4中国科学院计算技术研究所2010-5-24 云计算的兴起云计算的兴起 云计算风起云涌云计算风起云涌 5中国科学院计算技术研究所2010-5-24 云计算的大事件候选云计算的大事件候选 6中国科学院计算技术研究所2010-5-24 2008年底中科院计算所开2008年底中科院计算所开 发出基于云计算的并行数据 挖掘平台PDMiner 7中国科学院计算技术研究所2010-5-24 机遇机遇 大大降低 中小企业购 昂贵 设备的成本• 大大降低了中小企业购买昂贵IT设备的成本, 且可以享受大企业级的技术 • 为服务器、PC、EU的销售带了机遇 提供 种新的并行计算技术服务 云服务• 提供一种新的并行计算技术服务—云服务 – 无需购买硬件 – 无需开发软件 在网络上就可以得到并行计算服务并能在线实– 在网络上就可以得到并行计算服务并能在线实 时监控 2010-5-24中国科学院计算技术研究所 8 云计算的应用云计算的应用 马逊网络服务• 亚马逊网络服务(Amazon WebServices, AWS) • Google应用软件引擎(Google AppEngine, GAE), ( g pp g ) Google地球、地图、Gmail、Docs等 • Salesforce的网络应用软件平台Force.com, 这一平Salesforce的网络应用软件平台Force.com, 这 平 台可作为其他企业自身软件服务的基础 • IBM在2007年11月推出了“改变游戏规则”的“• IBM在2007年11月推出了 改变游戏规则 的 蓝云”计算平台,为客户带来即买即用的云计算 平台平台 • 微软在2008年10月推出了Windows Azure操作系统 9中国科学院计算技术研究所2010-5-24 内容提要内容提要 算 起• 云计算的兴起 数据挖掘发展历程• 数据挖掘发展历程 • 云数据挖掘实践• 云数据挖掘实践 • 云数据挖掘未来走向云数据挖掘未来走向 10中国科学院计算技术研究所2010-5-24 数据挖掘软件的发展数据挖掘软件的发展 代 特征 数据挖掘算法 集成 分布计算模型 数据模型 第一代 作为一个独 立的应用 支持一个或者多个 算法 独立的系统 单个机器 向量数据 的应用 算法 第二代 和数据库以 及数据仓库 集成 多个算法:能够挖 掘一次不能放进内 存的数据 数据管理系统, 包括数据库和 数据仓库 同质、局部区 域的计算机群 集 有些系统支持 对象,文本和 连续的媒体数 据 第三代 和预测模型 系统集成 多个算法 数据管理和预 测模型系统 Intranet/extra net网络计算 支持半结构化 数据和web数 据据 第四代 分布式数据 挖掘 多个算法分布在多 个节点 算法、调度系 统 网格计算 普遍存在的数 据模型 第五代 基于云计算 的并行数据 挖掘与服务 同一个算法分布在 多个节点;多个算 法之间也可以并行 计算资源按需 分配 云计算 BigTable DFS 11 Map/reduce on multi coreMap/reduce on multi‐core • Map‐Reduce for Machine Learning on Multicore(NIPS 2006) – Locally Weighted Linear Regression (LWLR), Naive Bayes (NB)– Naive Bayes (NB), – Gaussian Discriminative Analysis (GDA), – k-means, Logistic Regression (LR), , g g ( ), – Neural Network (NN), – Principal Components Analysis (PCA), – Independent Component Analysis (ICA), – Expectation Maximization (EM), Support Vector Machine (SVM)– Support Vector Machine (SVM) 目前基于hadoop的数据挖掘工作目前基于hadoop的数据挖掘工作 // / /• Mahout( https://cwiki.apache.org/MAHOUT/algorithms.html) – Classification: Logistic Regression, Bayesian, SVM, Neural Network,  Random ForestsRandom Forests, …… – Clustering: k‐Means, Fuzzy K‐Means, Expectation Maximization (EM),  Hierarchical Clustering, …… – Pattern Mining: Frequent Itemset mining, …… – Dimension reduction: SVD, PCA, ICA, GDA 海量数据挖掘需求 海量数据挖掘 海量数据挖掘需求 • 海量数据挖掘 – 从数据中获取有效的、可理解的知识 – 大规模数据挖掘是数据挖掘追求的目标 互联网网页数量随时间成倍增长 数千亿乃至– 互联网网页数量随时间成倍增长,数千亿乃至 上万亿的网页索引 数据挖掘任务远比搜索任务复杂– 数据挖掘任务远比搜索任务复杂 14中国科学院计算技术研究所2010-5-24 为什么基于云计算平台? 低成本分布式并行计算环境 为什么基于云计算平台? • 低成本分布式并行计算环境 – 适应规模不同的组织,为中小企业数据处理带来 了新型低成本计算环境 – 大企业“云计算”平台对于某些特定数据计算将 不再完全依赖大型高性能机 • 开发方便:屏蔽掉了底层开发方便 屏蔽掉了底层 – 数据的划分无需用户考虑 – 数据分配加载到节点无需考虑– 数据分配加载到节点无需考虑 – 计算任务调度无需考虑 15中国科学院计算技术研究所2010-5-24 为什么基于云计算平台?为什么基于云计算平台? 数据处 规模大幅度提高• 数据处理规模大幅度提高 – 由于并行化在利用原有设备的条件下就可以有大幅 度提高 • 扩展性好扩展性好 – 可以很方便地增加节点 • 容错计算健壮性强• 容错计算健壮性强 – 可自动处理失败节点,具有高容错能力 – 个别节点down掉,仍能完成计算任务 16中国科学院计算技术研究所2010-5-24 问题与挑战问题与挑战 需求• 需求 – 个性化个性化 – 多样化 数据• 数据 – 海量数据:数据量TB级乃至PB级 – 高维数据:采集数据项很多 – 噪声数据:网络来源、侦测不准、采集失当噪声数据:网络来源、侦测不准、采集失当 – 动态数据:股票数据、业务数据 2010-5-24中国科学院计算技术研究所 17 问题与挑战问题与挑战 算法• 算法 – 算法选择算法选择 – 并行策略 算法设计– 算法设计 – 参数调节 – 性能提高 2010-5-24中国科学院计算技术研究所 18 问题与挑战问题与挑战 不确定性• 不确定性 – 数据挖掘任务描述的不确定性数据挖掘任务描述的不确定性 – 数据采集和预处理的不确定性 – 数据挖掘方法和结果的不确定性 – 数据挖掘结果评价的不确定性数据挖掘结果评价的不确定性 2010-5-24中国科学院计算技术研究所 19 问题与挑战问题与挑战 信• 可信 – 服务的正确性:正确性是指没有不当的系统状服务的正确性:正确性是指没有不当的系统状 态 – 服务的安全性:没有灾难性的环境后果服务的安全性:没有灾难性的环境后果 – 服务的质量: ™可用性 准备好提供正确服务的概率™可用性:准备好提供正确服务的概率 ™可靠性:在给定的一段时间内提供正确服务的概率 ™高性能 响应时间和吞吐量™高性能:响应时间和吞吐量 – 隐私安全:不允许未授权的访问 2010-5-24中国科学院计算技术研究所 20 问题与挑战问题与挑战 安全• 安全 – 数据安全数据安全 • 隐私数据保护 – 过程安全– 过程安全 ™模型与需求一致 ™算法可检验™算法可检验 ™过程对用户可控、可视 ™结果仅对用户可理解™结果仅对用户可理解 – 公共安全 云计算安全的本质是信任管理™云计算安全的本质是信任管理 2010-5-24中国科学院计算技术研究所 21 对策对策 基础建设 数据挖掘 服务平台• 基础建设:数据挖掘云服务平台 – 专业人士成为服务的提供者 – 大众和各种组织成为服务的受益方 – 按领域、行业构建按领域、行业构建 • 虚拟化:计算资源自主分配调度 需求 大众参与应对个性化多样化的需求• 需求:大众参与应对个性化多样化的需求 • 可信:算法通用、可查、可调、可视 • 安全:隐私数据由客户自己在平台终端完成加 密保护密保护 2010-5-24中国科学院计算技术研究所 22 内容提要内容提要 算 起• 云计算的兴起 数据挖掘发展历程• 数据挖掘发展历程 • 云数据挖掘实践• 云数据挖掘实践 • 云数据挖掘未来走向云数据挖掘未来走向 23中国科学院计算技术研究所2010-5-24 已完成的工作 PDMiner已完成的工作― PDMiner 在 计算平台 基础上在云计算平台Hadoop基础上,2008 年底我们为中国移动开发了基于云年底我们为中国移动开发了基于云 计算的并行数据挖掘系统 24中国科学院计算技术研究所2010-5-24 已完成的工作 PDMiner已完成的工作― PDMiner 具有以下特点• PDMiner具有以下特点: – 提供一系列并行挖掘算法和ETL操作组件 – 开发的并行ETL操作达到了线性加速比 – 可实现TB级海量数据的预处理及之后的并行挖可实现 级海量数据的预处 及之后的并行挖 掘分析处理 – 挖掘算法随节点数线性增加,加速比随之增加挖掘算法随节点数线性增加 加速 随 增加 – 可稳定运行在256个节点组成的Linux集群环境 下,具有高可扩展性下 具有高可扩展性 25中国科学院计算技术研究所2010-5-24 已完成的工作 PDMiner已完成的工作― PDMiner 多个工作流任务可在云计算环境下的任意节点– 多个工作流任务可在云计算环境下的任意节点 同时启动,互不干扰 可自动处理失败节点 具有高容错能力– 可自动处理失败节点,具有高容错能力 – 开放式架构,算法组件可通过简单配置方便地 封装加载到平台中封装加载到平台中 – Java开发,提供系统日志进行管理,具有较好 的可移植性的可移植性 26中国科学院计算技术研究所2010-5-24 已完成的工作 PDMiner已完成的工作― PDMiner 实验 结果结果 (ETL) 27中国科学院计算技术研究所2010-5-24 已完成的工作 PDMiner已完成的工作― PDMiner 实验结果 (PKMeans)(PKMeans) 28中国科学院计算技术研究所2010-5-24 与商用软件比较与商用软件比较 • 达到了商用软件的精度,数据处理规模远远 超出商用软件 – 在商用软件能承受的相同数据规模下、采用相同方 法和相同参数设置、并且商用软件有结果的条件下, 新开发的基于云计算平台的并行数据挖掘系统获得新开发的基于云计算平台的并行数据挖掘系统获得 了一致的挖掘结果 上述比较是在同样成本购买的小型机和云计• 上述比较是在同样成本购买的小型机和云计 算平台所需硬件设备基础上作的比较,未考 虑占地 能耗 管 维护费用虑占地、能耗、管理、维护费用 29中国科学院计算技术研究所2010-5-24 30中国科学院计算技术研究所2010-5-24 已完成的工作 PDMiner已完成的工作― PDMiner 的意义• PDMiner的意义 – 开发出中国第一个基于云计算平台的并行数据 挖掘系统用 中国移动 级实 数据的挖掘挖掘系统用于中国移动TB级实际数据的挖掘 – 特别谈一下数据挖掘。我们开发了一些基于 的算法 其中有 些是经典的数据挖掘Hadoop的算法,其中有一些是经典的数据挖掘 算法,目前我们已经成功将它们使用在实际生 产运行中 试图挖掘各种用户使用行为和用户产运行中,试图挖掘各种用户使用行为和用户 关系。与传统系统相比,这个系统使用了1/6的 成本却实现了6倍的性能成本却实现了6倍的性能 ——黄晓庆于中国2009云计算大会 htt //l b hi bil / bl /47 40345– http://labs.chinamobile.com/mblog/47_40345 31中国科学院计算技术研究所2010-5-24 云数据挖掘的实践云数据挖掘的实践 近期进展― 面向Web基于云计算数 据挖掘服务系统WPDMiner据挖掘服务系统WPDMiner 32中国科学院计算技术研究所2010-5-24 面向Web的WPDMiner面向Web的WPDMiner 开发了面向W b的基于云计算的并行数据• 开发了面向Web的基于云计算的并行数据 挖掘服务系统WPDMiner 硬件资源管 理子系统 •分配和管理用分配和管理用 户申请和使用 的硬件资源 前台Web 界面 三个子系统 后台并行挖掘 界面 •与用户交互 子系统 •提供并行数据挖 掘服务 33中国科学院计算技术研究所2010-5-24 面向Web的WPDMiner (续)面向Web的WPDMiner (续) • 硬件资源管理子系统和后台并行挖掘子系统紧密结合 • 对用户透明,抽象成提供数据挖掘服务的“云” • 用户通过前台的Web交互界面定制数据挖掘任务 34中国科学院计算技术研究所2010-5-24 面向Web的WPDMiner (续)面向Web的WPDMiner (续) 35中国科学院计算技术研究所2010-5-24 面向Web的WPDMiner (续)面向 的 (续) 数据管理 2010-5-24 中国科学院计算技术研究所 36 面向Web的WPDMiner (续)管 面向 的 (续)数据管理 2010-5-24 中国科学院计算技术研究所 37 面向Web的WPDMiner (续)面向 的 (续) 任务管理 2010-5-24 中国科学院计算技术研究所 38 面向Web的WPDMiner (续)面向 的 (续) 配置工作流任务 2010-5-24 中国科学院计算技术研究所 39 面向Web的WPDMiner (续)面向 的 (续) 执行任务 2010-5-24 中国科学院计算技术研究所 40 面向Web的WPDMiner (续)面向 的 (续) 查看任务结果和日志查看任务结果和日志 2010-5-24 中国科学院计算技术研究所 41 内容提要内容提要 算 起• 云计算的兴起 数据挖掘发展历程• 数据挖掘发展历程 • 云数据挖掘实践• 云数据挖掘实践 • 云数据挖掘未来走向云数据挖掘未来走向 42中国科学院计算技术研究所2010-5-24 未来走向未来走向 数据挖掘 务将兴起• 数据挖掘云服务将兴起 – 专业人士成为服务的提供者专 人 成为服务的提供者 – 大众和各种企业、组织机构成为服务的受益方 数据挖掘研究受计算环境影响降低– 数据挖掘研究受计算环境影响降低 – 数据挖掘应用范围将大大拓宽 2010-5-24中国科学院计算技术研究所 43 未来走向未来走向 物联网中的基 计算的数据挖掘• 物联网中的基于云计算的数据挖掘 – 云计算是物联网中普适的计算模式云计算是物联网中普适的计算模式 – 云计算是物联网的基石 数据挖掘在物联网中是不可缺少的– 数据挖掘在物联网中是不可缺少的 • 高可信的基于云计算的数据挖掘软件与服 务 44中国科学院计算技术研究所2010-5-24 参考资料参考资料 • J Dean and S Ghemawat: Mapreduce: Simplified DataJ. Dean and S. Ghemawat: Mapreduce: Simplified Data  Processing on Large Clusters, OSDI’04 • C. T. Chu, S. K. Kim, Y.A. Lin, Y. Y. Yu, G. Bradski, A. Y. Ng: Map‐, , , , , g p Reduce for Machine Learning on Multicore, NIPS’06 • C. Ranger, R. Raghuraman, A. penmetsa, G. Bradski, C.  Kozyrakis: Evaluating MapReduce for Multi‐core and  Multiprocessor System, HPCA’07 • E. Y. Chang, K.Z. Zhu, H. Wang, H. Bai: Psvm: Parallelizing  support vector machines on distributed computers, NIPS’07 d d• H. C. Yang, A. Dasdan, R. L. Hsiao, D. S. P: Map‐reduce‐ merge: simplified relational data processing on large clusters,  Sigmod07Sigmod07 45中国科学院计算技术研究所2010-5-24 参考资料参考资料 • T. Elsayed, J. Lin, D. W. Oard: Pairwise Document Similarity in y , , y Large Collections with MapReduce, ACL’08 • W.Z. Zhao, H. F. Ma, Q, He: Parallel K‐Means Clustering Based  on MapReduce, CloudCom’09 • C. Liu, H. C. Yang, J. L. Fan, L. W. He, Y. M. Wang: Distributed  Nonnegative Matrix Factorization for Web‐Scale Dyadic Data  Analysis on MapReduce, WWW’10 h //l b l / / d h l• http://labs.google.com/papers/mapreduce.html • http://lucene.apache.org/hadoop h // k d / k / l d• http://en.wikipedia.org/wiki/Cloud_computing 46中国科学院计算技术研究所2010-5-24 参考资料参考资料 • http://csrc.nist.gov/groups/SNS/cloud‐computing/index.htmlp // g /g p / / p g/ • http://rgrossman.com/about‐cloud‐computing/ • http://www.ibm.com/developerworks/cn/java/j‐mahout/p // / p / /j /j / • http://www.infoq.com/news/2010/04/mahout‐03 47中国科学院计算技术研究所2010-5-24 谢谢!欢迎大家提问!谢谢!欢迎大家提问! http://www.intsci.ac.cn/pdm/pdminer.html Email: heqing@ict.ac.cna : eq g@ ct.ac.c Tel:13910062653 2010.5.220 0.5. 48中国科学院计算技术研究所2010-5-24
本文档为【%88%86论坛-基于云计算的海量数据挖掘++何清7】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_601556
暂无简介~
格式:pdf
大小:2MB
软件:PDF阅读器
页数:48
分类:互联网
上传时间:2011-07-16
浏览量:5