下载
加入VIP
  • 专属下载特权
  • 现金文档折扣购买
  • VIP免费专区
  • 千万文档免费下载

上传资料

关闭

关闭

关闭

封号提示

内容

首页 阿里巴巴ODPS介绍

阿里巴巴ODPS介绍.pdf

阿里巴巴ODPS介绍

scofield
2012-12-25 0人阅读 举报 0 0 暂无简介

简介:本文档为《阿里巴巴ODPS介绍pdf》,可适用于IT/计算机领域

阿里云阿里云阿里云阿里云ODPSODPSODPSODPS简介简介简介简介阿里云·互联网云计算·产品王乐珩自我介绍王乐珩(wanglehengnet)目前在阿里云任云计算业务线产品经理主要负责数据分析领域。此前在计算所生物信息组任pFind蛋白质搜索引擎的架构师和程序经理。什么是什么是什么是什么是ODPSODPSODPSODPS(一)(一)(一)(一)阿里云开放数据处理服务(OpenDataProcessingService简称ODPS)是构建在飞天系统上的大规模分布式数据处理服务。ODPS以RESTAPI的形式支持用户提交类SQL的查询语言对海量数据进行处理。在API之上还提供SDK开发包和命令行工具Aliyuncom上还有一个Web演示界面。什么是什么是什么是什么是ODPSODPSODPSODPS(二)(二)(二)(二)与传统数据仓库工具相比ODPS有以下优势:•处理能力强大:后面提到的“应用案例一”和“应用案例二”和“应用案例五”的客户都曾经购买使用过传统数据仓库技术解决方案但是都无法适应剧烈膨胀的数据规模。•成本低廉伸缩灵活:由于云计算的业务特点用户可以根据自己的实际需求租用相应的计算能力。同时节省昂贵的运营费用。后面提到的“应用案例四”和“应用案例五”的客户的支出是与其网站业务量以及产品线复杂程度一起增长的。什么是什么是什么是什么是ODPSODPSODPSODPS(三)(三)(三)(三)与HIVE、BigQuery相比ODPS有以下特点:•企业级特征:定制化ETL、窗口函数、存储过程、作业调度、MR、UDF等。•项目支撑:项目空间和帐号授权机制(ProjectUserRoleACL)。Quota和Priority的管理。•WebServiceWebServiceWebServiceWebService:RESTfulAPI、多语言SDK、事件订阅。ODPSODPSODPSODPS与与与与RDSRDSRDSRDS、、、、OTSOTSOTSOTS的区别(一)的区别(一)的区别(一)的区别(一)阿里云关系型数据库服务(RelationalDatabaseService简称RDS)是构建在弹性计算系统上的商用关系型数据库服务。RDS适合较小数据规模的常规OLTP(onlinetransactionalprocessing)应用。如果用户的需求是把现有关系数据库服务(例如MySQL和SQLServer)迁移到云平台上主要重视兼容性可以选择RDS。ODPSODPSODPSODPS与与与与RDSRDSRDSRDS、、、、OTSOTSOTSOTS的区别(二)的区别(二)的区别(二)的区别(二)阿里云开放结构化数据服务(OpenTableService简称OTS)是构建在飞天系统之上的海量结构化和半结构化数据存储与实时查询的服务。OTS服务的特点是大规模、低延时、强一致其适用场景是对数据规模和实时性要求高的应用。ODPSODPSODPSODPS与与与与RDSRDSRDSRDS、、、、OTSOTSOTSOTS的区别(三)的区别(三)的区别(三)的区别(三)ODPS重点面向数据量大(TB级别)且实时性要求不高的OLAP(OnLineAnalyticalProcessing)适用于构建数据仓库、海量数据统计、数据挖掘、数据商业智能等应用。OTS和ODPS可以配合使用前者支撑大规模并发的日常访问(例如铁路售票前台系统)然后每隔小时就把交易数据推入ODPS支撑的数据仓库利用后者进行进一步的业务分析。在线计算与离线计算在线计算与离线计算在线计算与离线计算在线计算与离线计算•在线计算(在线计算(在线计算(在线计算(OnlineOnlineOnlineOnline))))–数据稀疏一般情况半结构化–存取少量数据(单条或一个range)–响应实时低延迟–每天响应请求次数达数千万–*小时服务•离离离离线计算(线计算(线计算(线计算(OfflineOfflineOfflineOffline))))–数据稠密对数据结构化无要求–一经存储不会改变–批量作业处理几十分钟作业甚至数天–每天扫描数据可达数千亿条在线计算的技术特点在线计算的技术特点在线计算的技术特点在线计算的技术特点•注重随机存取性能•注重取值区间(Range)的性能•文件块(Block)容量较小•索引(Index)较多主键(Key)不易太大•需要一个主节点控制•各节点需要有守护进程•各节点内存占用较多离线计算的技术特点离线计算的技术特点离线计算的技术特点离线计算的技术特点•注重顺序存取性能•尽量减少不必扫描的数据减少IO•文件块(Block)一般较大•可以不用或少量索引(Index)•需要作业调度•除了像join这种操作否则内存占用量不高ODPSODPSODPSODPS架构系统系统系统系统模型模型模型模型•帐号(Account)•项目(Project)•表(Table)•查询(Query)和查询任务(QueryTask)•导入导出任务(ImportExportTask)•MapReduce任务(MRTask)•UDF任务(UDFTask)•作业(Job)和作业实例(JobInstance)应用案例(一)阿里金融的信用评估系统会自动分析小微企业的数据例如企业通过支付宝进行的支付数据最终算出信用评估和放贷额度。截止年底阿里金融对近万家小微企业进行信用评估。累计投放家投放贷款亿坏账率为交易额的。阿里金融的数据仓库基于ODPS服务。阿里金融的实时业务墙阿里金融的数据仓库业务模型基于阿里云ODPS平台阿里金融的数据模型任务(局部)每个模型任务都是面向海量数据的大规模运算任务。应用案例(二)淘宝共享数据平台搭建全淘宝共享的分布式数据处理平台整合分析挖掘全淘宝的商业数据提供多样性的数据产品。阿里云和淘宝进行合作ODPS服务对数据共享业务提供部分关键功能的支撑。淘宝数据盛典(部分)《淘宝数据盛典》统计总结了各地淘宝用户的特征信息。(http:shengdiantaobaocom)淘宝指数(部分)输入关键字依据主站搜索、后台成交明细、用户注册信息以及过去个月的购物数据返回趋势图。还会依据性别比例、年龄、地域、买家等级进行分类。淘宝在云端IDEIDEIDEIDE界面“在云端”界面提供给内部产品经理以便查询所有淘宝、支付宝的点击、交易数据。应用案例(三)CNZZ是国内站长使用最多的网站流量系统为个人站长提供安全可靠公正的第三方网站访问免费统计。目前CNZZ每天新增亿条访问日志的数据记录约T数据其底层使用ODPS进行数据统计分析。CNZZCNZZCNZZCNZZ数据报告界面CNZZ利用ODPS存储和分析海量的原始访问记录数据。应用案例(四)某电子商务创业网站租用ODPS服务对现有用户购买日志和业务数据进行数据挖掘。用户的离线计算任务除了定时更新网站上的热榜排行等统计栏目更重要的是计算各个商品服务类目的推荐信息(例如“购买该产品的用户还购买了……”)大大提高了访问用户转化率。应用案例(五)“御泥坊@网聚宝@马克威@阿里云”生态环境是一个很有趣的案例。御泥坊网聚宝马克威ECODPS御泥坊是淘宝皇冠卖家。御泥坊租用阿里云弹性计算服务。御泥坊委托网聚宝对其销售数据进行分析进行精细客户营销。网聚宝是一站式会员管理并在云市场出售产品服务服务商。网聚宝租用阿里云弹性计算和ODPS服务。同时网聚宝租用马克威数学算法和建模服务。天律马克威是专业统计分析和数据挖掘服务。天律在阿里云租用弹性计算和ODPS服务并在云市场出售马克威产品服务。实例:用ODPSODPSODPSODPS干什么?网聚宝得到御泥坊的授权通过淘宝API获取其客户、商品和订单的数据。客户的商务分析人员登录网聚宝的平台进行数据查询分析。实例:用ODPSODPSODPSODPS干什么?网站运营中一个简单的例子:筛选出最近六个月累计购买三次或以上的客户且该客户购买过商品A但是尚未购买过商品B或C同时客户留的联系方式是QQ邮箱。实例:用ODPSODPSODPSODPS干什么?比较大的淘宝卖家每月有上百万条数据记录。普通的关系型数据库(例如MYSQL)其性能无法支撑前面这个运营需求例子里的复杂条件的联合查询。OTS不支持复杂逻辑多表联查。也就是说RDS、OTS均无法满足需求。而ODPS很适合这个场景。回过头来总结业务特点•ODPS是开发数据仓库的平台工具。•数据仓库的传统市场是电信和银行传统解决方案很昂贵。•互联网运营团队越来越依赖于大数据分析工具。•云计算是技术创新也是业务创新。•对于网络行业业务数据天然在网上导入ODPS更容易。•对于传统行业前期可能需要VM、RDS和OTS等兄弟产品开路逐步引导用户使用ODPS。电子商务需求旺盛(一)如果你问陈年凡客诚品的短板是什么这位CEO会告诉你是对数据的分析和应用能力。  陈年说凡客越来越像是一家数学公司需要对大量的订单和用户信息进行分析进而更好地指导生产工作减少高库存。  这个经验总结是凡客用血的代价换来的。  整个年凡客全面扩张不断试错结果是屡屡犯错。 凡客的库存积压究竟有多严重?有数据称截至去年三季度末时凡客的总库存量高达亿元且凡客在商品品类方面的扩展加速了库存的积压。电子商务需求旺盛(二)参考:与数据分析有关的云服务•SplunkSplunkSplunkSplunkhttp:wwwqastcomsplunkindexhtm•PentahoPentahoPentahoPentahohttp:wwwpentahocom•JaspersoftJaspersoftJaspersoftJaspersofthttp:wwwjaspersoftcom•SumoLogicSumoLogicSumoLogicSumoLogichttp:wwwsumologiccom•ConnotateConnotateConnotateConnotatehttp:wwwconnotatecom•InrixInrixInrixInrixhttp:wwwinrixcom•TableauTableauTableauTableauhttp:wwwtableausoftwarecom•MetaMarketsMetaMarketsMetaMarketsMetaMarketshttp:metamarketscom•DataSiftDataSiftDataSiftDataSifthttp:datasiftcom•DatameerDatameerDatameerDatameerhttp:datameercom•GridGainGridGainGridGainGridGainhttp:wwwgridgaincom•AppistryAppistryAppistryAppistryhttp:wwwappistrycom•LocuLocuLocuLocuhttp:locucom•clearstorydataclearstorydataclearstorydataclearstorydatahttp:wwwclearstorydatacom•factualfactualfactualfactualhttp:wwwfactualcom•infochimpsinfochimpsinfochimpsinfochimpshttp:wwwinfochimpscom谢谢http:odpsaliyuncom

用户评价(0)

关闭

新课改视野下建构高中语文教学实验成果报告(32KB)

抱歉,积分不足下载失败,请稍后再试!

提示

试读已结束,如需要继续阅读或者下载,敬请购买!

文档小程序码

使用微信“扫一扫”扫码寻找文档

1

打开微信

2

扫描小程序码

3

发布寻找信息

4

等待寻找结果

我知道了
评分:

/33

阿里巴巴ODPS介绍

VIP

在线
客服

免费
邮箱

爱问共享资料服务号

扫描关注领取更多福利