首页 《云计算(第三版)》配套PPT之22:第6章Hadoop2.0大家族(三)

《云计算(第三版)》配套PPT之22:第6章Hadoop2.0大家族(三)

举报
开通vip

《云计算(第三版)》配套PPT之22:第6章Hadoop2.0大家族(三)6.1Hadoop2.0大家族概述6.2ZooKeeper6.3Hbase6.4Pig6.5Hive6.6Oozie6.7Flume6.8Mahout6.9小结目录6.5Hive6.5.1Hive简介6.5.2Hive入门是什么HiveHive是一个构建在Hadoop上的数据仓库框架,它起源于Facebook内部信息处理平台。设计目的让Facebook内精通SQL(但Java编程相对较弱)的分析师能够以类SQL的方式查询存放在HDFS的大规模数据集。of38《云计算》第三版配套PPT课件46.5HiveHive基本...

《云计算(第三版)》配套PPT之22:第6章Hadoop2.0大家族(三)
6.1Hadoop2.0大家族概述6.2ZooKeeper6.3Hbase6.4Pig6.5Hive6.6Oozie6.7Flume6.8Mahout6.9小结目录6.5Hive6.5.1Hive简介6.5.2Hive入门是什么HiveHive是一个构建在Hadoop上的数据仓库框架,它起源于Facebook内部信息处理平台。 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 目的让Facebook内精通SQL(但Java编程相对较弱)的分析师能够以类SQL的方式查询存放在HDFS的大规模数据集。of38《云计算》第三版配套PPT课件46.5HiveHive基本框架Hive包含Shell环境、元数据库、解析器和数据仓库等组件,其体系结构如图所示:用户接口Thrift服务器元数据库解析器Hadoop包括HiveShell、Thrift客户端、Web接口。当Hive以服务器模式运行时,作为Thrift服务器,供客户端连接。Hive元数据(如表信息)的集中存放地。将Hive语句翻译成MapReduce操作。底层分布式存储和计算引擎。of38《云计算》第三版配套PPT课件5Hive各种访问接口BeeLineCL1HiveCL1JDBC客户端ODBC客户端Web接口Thrift服务器解释器编译器优化器执行器MapReduce数据仓库HDFSHadoop无数据库6.5HiveHive基本框架of38《云计算》第三版配套PPT课件6Hive的SQL称为HiveQL,它与大部分的SQL语法兼容,但是并不完全类似SQL。6.5HiveHive语法数据类型基本类型:数值型、布尔型和字符串复杂类型:ARRAY、MAP和STRUCT数据类型HiveQL操作符类似于SQL操作符Hive提供了数理统计、字符串操作、条件操作等大量的内置函数用户还可以自己编写函数of38《云计算》第三版配套PPT课件6.5Hive6.5.1Hive简介6.5.2Hive入门86.5HiveHive部署部署模式内嵌模式本地模式完全远程模式of38《云计算》第三版配套PPT课件9此模式是安装时的默认部署模式,此时元数据存储在一个内存数据库Derby中,并且所有组件(如数据库、元数据服务)都运行在同一个进程内。这种模式下,一段时间内只支持一个活动用户。但这种模式配置简单,所需机器较少,限于集群规模,本节Hive部署即采用这种模式。6.5HiveHive部署DriveMetastoreDerbyHive服务进程内嵌模式of38《云计算》第三版配套PPT课件10DriveMetastoreDBHive服务进程6.5HiveHive部署此模式是Hive元数据服务依旧运行在Hive服务主进程中,但元数据存储在独立数据库中(可以是远程机器),当涉及元数据操作时,Hive服务中的元数据服务模块会通过JDBC和存储于DB里的元数据数据库交互。本地模式of38《云计算》第三版配套PPT课件116.5HiveHive部署完全远程模式BeelineCL1HiveCL1Hive服务进程RemoteMetastoreHcatalogDB元数据服务以独立进程运行,并且元数据存储在一个独立的数据库里。of38《云计算》第三版配套PPT课件126.5HiveHive部署内嵌模式部署(1)下载并安装Hive。[root@iClient~]#sudoyuminstallhive(2)HDFS里新建Hive存储目录。[root@iClient~]#sudo–uhdfshdfsdfs–mkdir/user/hive#HDFS里新建Hive存储目录[root@iClient~]#sudo–uhdfshdfsdfs–chmod–R1777/user/hive#为目录设置适当权限只需上述两步就可以直接使用Hive了,当然,也可以使用jps命令查看Hive进程。of38《云计算》第三版配套PPT课件13Hive提供了强大的访问接口,从下图中即可看出Hive提供的诸多接口,此外也可以通过Hcatalog、Pig、BeeLine等访问Hive。6.5HiveHive接口Hive各种访问接口BeeLineCL1HiveCL1JDBC客户端ODBC客户端Web接口of38《云计算》第三版配套PPT课件14按要求完成问题:进入Hive命令行接口,获取Hive函数列表并单独查询count函数用法。在Hive里新建member表,并将表6-6中的数据载入Hive里的member表中。查询member表中所有记录,查询member表中gender值为1的记录,查询member表中gender值为1且age为22的记录,统计member中男性和女性出现次数。试比较Pig中“单词计数”和“统计男女出现次数”的异同点。6.5HiveHive接口【例6-5】of38《云计算》第三版配套PPT课件156.5HiveHive接口问题①较为简单,参考下面两条命令即可,注意本题所有操作都在iClient上执行,为方便载入数据,本次使用root用户。[root@iClient~]#Hive#进入Hive命令行hive>showfunctions;#获取Hhive所有函数列表hive>describefunctioncount;#查看count函数用法对于问题②,我们首先为表准备数据,即在iClient目录“/root”下新建文件memberData并写入如下 内容 财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容 ,注意记录间为换行符,字段间以Tab键分割。201401aa021e0p3m201402bb122e1p2l201403cc122e2p1mof38《云计算》第三版配套PPT课件166.5HiveHive接口hive>showtables;#查看当前Hive仓库中所有表(以确定当前无member表)hive>createtablemember(idint,namestring,gendertinyint,agetinyint,edustring,profstring,incomestring)rowformatdelimitedfieldsterminatedby'\t';#使用合适字段与类型,新建member表hive>showtables;#再次查看,将显示member表hive>loaddatalocalinpath'/root/memberData'intotablemember;#将本地文件memberData载入HDFShive>select*frommember;#查看表中所有记录hive>select*frommemberwheregender=1;#查看表中gender值为1的记录hive>select*frommemberwheregender=1ANDage=23;#查看表中gender值为1且age为23的记录hive>selectgender,count(*)frommembergroupbygender;#统计男女出现总次数hive>droptablemember;#删除member表hive>quit;#退出Hive命令行接口of38《云计算》第三版配套PPT课件6.1Hadoop2.0大家族概述6.2ZooKeeper6.3Hbase6.4Pig6.5Hive6.6Oozie6.7Flume6.8Mahout6.9小结目录6.6Oozie6.6.1Oozie简介6.6.2Oozie入门19由于需要存储工作流信息,为提供高可靠性,确保任务配置不丢失,Oozie内部使用数据库来存储工作流相关信息,用户可以使用Oozie内嵌的Derby数据库,也可以使用MySQL、PostgreSQL、Oracle等数据库6.6OozieOozie简介Oozie的主要功能包括:组织各种工作流以规定方式执行工作流托管工作流PigHive定时任务定数任务数据促发任务命令行接口任务失败时的通知 机制 综治信访维稳工作机制反恐怖工作机制企业员工晋升机制公司员工晋升机制员工晋升机制图 邮件通知of38《云计算》第三版配套PPT课件6.6Oozie6.6.1Oozie简介6.6.2Oozie入门216.6OozieOozie部署Oozie相当于Hadoop的一个客户端,因此集群中只有一台机器部署Oozieserver端即可,由于可以有任意多个客户端连接Oozie,故每个客户端上都须部署Oozieclient,本节选择在cMaster上部署Oozieserver,在iClient上部署Oozieclient。[root@cMaster~]#sudoyuminstalloozie#cMaster上以root权限执行,部署Oozie服务端1)部署Oozie服务端[root@iClient~]#sudoyuminstalloozie-client2)部署Oozie客户端of38《云计算》第三版配套PPT课件223)配置Oozie#exportCATALINA_BASE=/usr/lib/oozie/oozie-server-0.20exportCATALINA_BASE=/usr/lib/oozie/oozie-server6.6OozieOozie部署<property><name>hadoop.proxyuser.oozie.groups</name><value>*</value></property><property><name>hadoop.proxyuser.oozie.hosts</name><value>*</value></property>$forxin`cd/etc/init.d;lshadoop-*`;doservice$xrestart;done;#除了iCleint外,其他机器都要执行修改/etc/oozie/conf/oozie-env.sh中的CATALINA_BASE属性值在/etc/hadoop/conf/core-site.xml文档里configuration标签间加入如下内容下面是重启Hadoop集群的命令:of38《云计算》第三版配套PPT课件236.6OozieOozie部署[root@cMaster~]#sudo-uoozie/usr/lib/oozie/bin/ooziedb.shcreate–run#仅cMaster执行4)创建Oozie数据库模式[root@cMaster~]#cd/var/lib/oozie/[root@cMasteroozie]#sudo-uooziewgethttp://archive.cloudera.com/gplextras/misc/ext-2.2.zip[root@cMasteroozie]#sudo-uoozieunzipext-2.2.zip5)配置OozieWeb页面Oozie的Web界面用到第三方包,但由于版权原因ext-2.2并未打包进Oozie,事实上开启Oozieserver不需要开启OozieWeb界面,但如果想在开启Oozieserver同时也开启OozieWeb界面,则必须下载ext-2.2.zip并将其解压到目录of38《云计算》第三版配套PPT课件246.6OozieOozie访问接口[root@cMaster~]#sudo-uhdfshdfsdfs-mkdir/user/oozie[root@cMaster~]#sudo-uhdfshdfsdfs-chownoozie:oozie/user/oozie[root@cMaster~]#mkdir/tmp/ooziesharelib[root@cMaster~]#cd/tmp/ooziesharelib[root@cMaster~]#tarxzf/usr/lib/oozie/oozie-sharelib-yarn.tar.gz[root@cMaster~]#sudo-uooziehdfsdfs-putshare/user/oozie/share6)将Oozie常用Jar包导入HDFS7)开启Oozie服务[root@cMaster~]#sudoserviceooziestart8)查看Oozie服务[root@iClient~]#oozieadmin-ooziehttp://cMaster:11000/oozie-statusof38《云计算》第三版配套PPT课件256.6OozieOozie访问接口按要求完成问题:进入Oozie客户端,查看常用命令。运行OozieMR示例程序。运行OoziePig、Hive等示例。编写workflow.xml,完成一次WordCount。编写workflow.xml,完成两次WordCount,且第一个WC的输出为第二个WC的输入。Oozie最常用的是命令行接口,它的Web接口只可以看到Oozie托管的任务,不可以配置作业。【例6-6】of38《云计算》第三版配套PPT课件266.6OozieOozie访问接口对于问题①在iClient上执行下述命令即可,用户可以是root或joe。[root@iClient~]#sudo–ujoeooziehelp#查看所有Oozie命令对于问题②首先解压Oozie示例jar包,接着修改示例配置中的地址信息,最后上传至集群执行对于问题③修改相应配置后,再上传至集群,执行时也要定位到相应路径对于问题④读者可参考“examples/apps/map-reduce/workflow.xml”对于问题⑤单独写出各类或脚本后,写出此逻辑对应的workflow.xml即可of38《云计算》第三版配套PPT课件本章未完待续of38《云计算》第三版配套PPT课件百度排名首位的大数据资料和交流中心百度排名首位的云计算资料和交流中心终生免费的智能硬件大数据托管平台扫一扫,进入万物云终生免费的环境大数据共享平台扫一扫,进入环境云云创大数据给您一步到位的解决 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 !高校Hadoop教学科研一揽子解决方案云计算、大数据时代,社会亟需相关人才!而高校缺平台、缺人才、缺经验!怎么办?建设一个Hadoop实验平台一套开源的Hadoop一体机和开发环境,详细的指导书籍和实验设计。培养一支云计算师资队伍来自云计算高手的系列 培训 焊锡培训资料ppt免费下载焊接培训教程 ppt 下载特设培训下载班长管理培训下载培训时间表下载 ,早在2010年就培训了全国第一批云计算师资力量。营造一个大数据科研环境为科研提供技术支持,与大数据应用相结合,让科研迈上新台阶。了解详情
本文档为【《云计算(第三版)》配套PPT之22:第6章Hadoop2.0大家族(三)】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
机构认证用户
hs154
hx主要从事图文设计、ppt制作,范文写作!
格式:ppt
大小:6MB
软件:PowerPoint
页数:0
分类:其他高等教育
上传时间:2021-10-12
浏览量:0