首页 ODPS产品介绍

ODPS产品介绍

举报
开通vip

ODPS产品介绍 ODPS 产品介绍 开发数据处理服务 (Open Data Processing Service, ODPS) 是基于阿里巴巴集团完全自 主知识产权的云计算平台构建的数据存储与分析平台。作为一个海量结构化数据离线处理与 分析的平台服务,ODPS 融合了分布式存储与计算、分布式数据仓库以及互联网云计算服务 等先进技术和运营理念,以云计算服务的形式实现海量数据的分享与处理。ODPS 着力于实 时性要求不高的海量数据(TB/PB 级别)离线处理,因此在数据仓库构建、海量数据统计、 数据挖掘、数据商业智能等...

ODPS产品介绍
ODPS 产品介绍 开发数据处理服务 (Open Data Processing Service, ODPS) 是基于阿里巴巴集团完全自 主知识产权的云计算平台构建的数据存储与分析平台。作为一个海量结构化数据离线处理与 分析的平台服务,ODPS 融合了分布式存储与计算、分布式数据仓库以及互联网云计算服务 等先进技术和运营理念,以云计算服务的形式实现海量数据的分享与处理。ODPS 着力于实 时性要求不高的海量数据(TB/PB 级别)离线处理,因此在数据仓库构建、海量数据统计、 数据挖掘、数据商业智能等应用领域有着巨大的应用前景。 ODPS 以 RESTful API 的形式提供服务,用户可使用类 SQL 查询语言处理海量数据; 同时,ODPS 也支持扩展的 MapReduce (MR) 编程模型,熟悉 Hadoop 的开发人员可以轻松 地转到 ODPS 平台,快速开发出高效强大的数据处理应用。 ODPS 的概念与术语 整体而言,ODPS 服务包含以下这些概念和术语:  帐号(Account):用户到 aliyun.com 申请注册统一帐号,并购买开通 ODPS 服务。 拥有统一帐户和必要权限后,系统会分配确保数据和计算安全的 AccessID 和 AccessKey 的 安全加密对。用户就可以通过 ODPS 命令行工具(odpscmd)、SDK 开发包或者 Web API 创 建属于该帐号的项目(Project)。帐号也是权限管理的基本单位。  项目(Project):项目是 ODPS 最基本的组织对象。其他常见资源,例如表(Table) 和作业(Job) 都归属于某个确定的项目。项目的创建者可以把项目对象的读取、修改权限授 予其他帐号,也可以取消授权。项目是计量计费的基本单位。  表(Table):表是 ODPS 中的数据存储对象。与常见的关系型数据库类似,ODPS 中 的表逻辑上也是二维结构。每一行代表一条记录,每一列代表相同数据类型的某个字段。  SQL 任务(SQL Task):SQL Task 采用 ODPS SQL 语法,与 ANSI SQL-92 的语法 类似,可看作 SQL-92 的一个扩展子集,但不具备事务、主键约束等典型数据库特征,同时 也根据 ODPS 的特点进行了较多扩展。  导入导出任务(DT Task):DT Task 负责将不同数据源的数据导入 ODPS 表中,其 可被看作只有两个 Mapper 而没有 Reducer 的 MR 任务:第一个 Mapper 将任务分解成粒度 更细的子任务;第二个 Mapper 启动多个并行实例,完成数据传输和转换工作。  MapReduce 任务(MR Task): MR Task 基于 ODPS MR 编程模型,类似于 Hadoop MR,并进行了扩展。ODPS 支持用户自主编写并上传 MapReduce 代码, 经过注册后成为 MR Task。  作业(Job)和作业实例(Job Instance):一个作业包括一条或多条导入导出任务、 SQL 任务和 MapReduce 任务,以及它们之间的执行次序关系。所谓执行次序,可以是串行、 并行和带有依赖关系的工作流模式。当一个作业被提交到分布式系统开始实际执行,它就拥 有了一个作业实例。作业实例包含了作业运行的现场状态,例如任务的现场版本,执行的返 回状态等。如果一个作业多次运行,它就拥有多个作业实例。  资源(Resource):用户可以上传自定义的 jar 包或文本文件作为资源,也可以将 某个表作为资源,资源大小限制为小于 100M。例如 UDF 代码、MapReduce 代码,一些应 用中需要用到的字典表等等。 ODPS 的体系架构 ODPS 的体系架构如图 1 所示。 图 1 ODPS 体系架构 由图 1 可知,ODPS 由四部分组成,分别是客户端 (ODPS Client)、接入端 (ODPS Front End)、逻辑层 (ODPS Server) 及存储与计算层 (Apsara Core)。 ODPS 的客户端有以下几种形式:  Web:ODPS 以 RESTful API 的方式提供离线数据处理服务;  ODPS SDK:对 ODPS RESTful API 的封装,目前有 Java 等版本的实现;  ODPS CLT (Command Line Tool):运行在 Window/Linux 下的客户端工具,通过 CLT 可以提交命令完成 Project 管理、DDL、DML 等操作;  ODPS IDE:即“在云端”产品,一套基于 Web 的集成开发环境。 ODPS 接入端提供 HTTP 服务(目前 HTTP Server 为 Apache,未来将替换为 Nginx)、 Cache、Load Balance,用户认证和服务层面的访问控制。 ODPS 逻辑层是核心部分,实现用户空间和对象的管理、Query 和命令的解析与执行逻 辑、数据对象的访问控制与授权等功能。逻辑层包括两个集群:调度集群与计算集群。调度 集群主要负责用户空间和对象的管理、Query 和命令的解析与启动、数据对象的访问控制与 授权等功能;计算集群主要负责 task 的执行。在调度集群中有 Worker、Scheduler 和 Executor 三个角色,体现了三权分立的原则,其中:  Worker 处理所有 RESTful 请求,包括用户空间(project)管理操作、资源(resource) 管理操作、作业管理等,对于 SQL DML、MR、DT 等启动 Fuxi 任务的作业,会提 交 Scheduler 进一步处理;  Scheduler 负责 instance 的调度,包括将 instance 分解为 task、对等待提交的 task 进 行排序、以及向计算集群的 Fuxi master 询问资源占用情况以进行流控(Fuxi slot 满的时候,停止响应 Executor 的 task 申请);  Executor 负责启动 SQL/DT/MR task,向计算集群的 Fuxi master 提交 Fuxi 任务,并 监控这些任务的运行。 当用户提交一个 ODPS 作业请求时,接入层的 Web 服务器(Apache)查询阿里云计算 平台的 Naming 服务(Nuwa)获取已注册的 Worker 的 IP 地址,并随机选择选择某些 Worker 发送 API 请求。Worker 将请求发送给 Scheduler,由其负责调度和流控。Executor 会主动轮 询 Scheduler 的队列,若底层资源满足条件,则开始执行任务,并将结果反馈给 Scheduler。 ODPS 中,作业与任务的关系如下:  Job:为作业的一个 模板 个人简介word模板免费下载关于员工迟到处罚通告模板康奈尔office模板下载康奈尔 笔记本 模板 下载软件方案模板免费下载 ,类似 Job Template 的概念;  Instance:为作业的一个具体实例,表示实际运行的 Job,类同 Hadoop 中 Job 概念;  Task:由 Job 分解而来,类同 Hadoop 中 Task 概念,ODPS 中主要有 SQL task、 MR task、DT task 三类 task。 Job 可以包含多个不同种类的 Task,且支持 DAG(有向无环图)定制 Task 执行顺序。 同时,Job 可以参数化,并支持 Job 嵌套、定时、和定期重复执行等特性。 ODPS 存储与计算层为阿里云自主知识产权的云计算平台的核心构件,图中仅列出了若 干主要模块,包括 Pangu(分布式文件系统)、Fuxi(资源调度系统)、Nuwa/ZK(Naming 服务)、Shennong(监控模块)等。 ODPS 中的元数据存储在阿里云计算的另一个开放服务 OTS(Open Table Service,开放 结构化数据服务)中,元数据内容主要包括用户空间元数据、Table/Partition Schema、ACL、 Job 元数据、安全体系等。 ODPS中的 Admin Console是运维和管理 ODPS的统一接口,其通过RESTful API和 SDK 访问集群,并整合了阿里云计算平台底层监控系统和集群诊断的 Portal,实现了 ODPS 配置 与管理的集中化。ODPS 管理员在 Admin Console 中可以管理权限体系与调度系统、设置管 理策略、监控与分析任务运行和资源使用情况、监控与管理阿里云计算底层平台、查看阿里 云计算底层平台的日志并提供了集群辅助诊断工具。Admin Console 还提供了 SDK,用户可 基于此进行运营工具的二次开发。 ODPS 应用开发模式 用户基于 ODPS 开发自己应用的模式如图 2 所示。 图 2 ODPS 应用开发模式 图 2 中,ODPS 以 RESTful API 方式对外提供服务,用户有四种方式来使用 ODPS 的服 务:通过 REST 请求访问 ODPS RESTful API、通过在云端 IDE、通过 ODPS CLT (Command Line Tool)、通过 ODPS SDK。 其中,ODPS SDK 是对 ODPS RESTful API 的封装,但并非一一映射关系,而是提供了 更高层次的抽象,以便于用户理解并运用 ODPS 中的概念。ODPS SDK按功能划分了 tables、 jobs、resources、authorization、registration 等包。ODPS CLT 是基于 SDK 开发的一个 Windows/Linux 命令行工具,用户可以命令的方式运行作业。在云端为阿里巴巴内部的一个 IDE 产品,通过 SDK 访问 ODPS 服务。 ODPS 实现了一个数据驱动的多级流水线并行计算框架,ODPS SDK 允许用户构建并行、 串行的 DAG(Directed Acyclic Graph,有向无环图)任务流,并提供了丰富的 ODPS 运行管 理服务(包括 Project、Table、Resource、Job、Authorization 等)供用户调用。如果用户的 应用场景较为简单,可以考虑采用 ODPS CLT。 ODPS ODPS RESTful API ODPS SDK ODPS CLT 在云端 IDE REST 请求 Java Command
本文档为【ODPS产品介绍】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_574672
暂无简介~
格式:pdf
大小:406KB
软件:PDF阅读器
页数:4
分类:互联网
上传时间:2014-03-27
浏览量:54