首页 Hadoop技术体系介绍

Hadoop技术体系介绍

举报
开通vip

Hadoop技术体系介绍Hadoop 体系介绍 目录 一、背景    4 二、什么是Hadoop    4 2.1、apache hadoop项目    4 2.2、hadoop的优点    5 2.3、Hadoop的使用场景    6 三、Hadoop发展状况及国内外应用情况    6 四、Hadoop文件系统HDFS    7 4.1、HDFS设计目标    7 4.2、HDFS体系结构    8 4.3、HDFS命名空间    9 4.4、HDFS存储原理    9 4.5、数据存取策略    10 4.6、通讯协议    12...

Hadoop技术体系介绍
Hadoop 体系介绍 目录 一、背景    4 二、什么是Hadoop    4 2.1、apache hadoop项目    4 2.2、hadoop的优点    5 2.3、Hadoop的使用场景    6 三、Hadoop发展状况及国内外应用情况    6 四、Hadoop文件系统HDFS    7 4.1、HDFS 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 目标    7 4.2、HDFS体系结构    8 4.3、HDFS命名空间    9 4.4、HDFS存储原理    9 4.5、数据存取策略    10 4.6、通讯 协议 离婚协议模板下载合伙人协议 下载渠道分销协议免费下载敬业协议下载授课协议下载     12 4.7、数据错误和异常    12 4.7、HDFS尚未实现的功能总结    13 五、MapReduce、hive和pig    14 5.1、MapReduce    14 5.2、Hive    14 5.3、Pig    16 5.4、Mapreduce、hive和pig对比 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析     17 5.4.1、hadoop、hive和pig的性能测试    17 5.4.2、Hive 和Pig对比    21 六、HBASE    22 6.1、HBASE数据模型    22 6.2、HBASE概念视图    23 6.3、HBASE物理视图    24 6.4、HBASE分布式体系结构    24 6.5、Hbase和传统关系数据库的对比分析    25 七、关于Hadoop使用总结    26 7.1、HDFS    26 7.2、MapReduce、HIVE和PIG    27 7.3、HBASE    27 八、关于研究Hadoop的考虑    27 九、参考文献    29 一、背景 云计算已经被看作 IT 业的新趋势,分布式计算开源框架Hadoop作为构建云计算平台的技术之一而被广为关注。在公司,目前Hadoop已经在很多项目中用作海量数据存储、数据检索和统计分析技术。顺应技术发展趋势,掌握热门的新技术为公司关键项目提供技术保障,研究hadoop势在必行。 二、什么是Hadoop 2.1、apache hadoop项目 Hadoop是Apache开源组织的一个分布式计算开源框架,基于 Hadoop可以轻松地编写可处理海量数据的分布式并行程序,并将其运行于由成百上千个结点组成的大规模计算机集群上。Hadoop 由Doug Cutting(道格·卡廷)在2004年开始开发并于2005年秋天作为Nutch的一部分被正式引入到Apache。Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成。其中,HDFS 和MapReduce 是两个最基础最核心的成员,其结构如下图所示: 图 2-1 Hadoop子项目组成 ? Core:一系列分布式文件系统和通用I/O的组件和接口(序列化、Java RPC和持久化数据结构),2009年7月core被更名为common。 ? Avro:一种提供高效、跨语言RPC的数据序列系统,持久化数据存储。 ? MapReduce:分布式数据处理模式和执行环境,运行于大型商用机集群。 ? HDFS:分布式文件系统,运行于大型商用机集群。 ? Pig:一种数据流语言和运行环境,用以检索非常大的数据集。Pig运行在MapReduce和HDFS的集群上。 ? Hbase:一个分布式的、列存储数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)。 ? ZooKeeper:一个分布式的、高可用性的协调服务。ZooKeeper提供分布式锁之类的基本服务用于构建分布式应用。 ? Hive:分布式数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。 ? Chukwa:分布式数据收集和分析系统。Chukwa运行HDFS中存储数据的收集器,它使用MapReduce来生成 报告 软件系统测试报告下载sgs报告如何下载关于路面塌陷情况报告535n,sgs报告怎么下载竣工报告下载 。 2.2、hadoop的优点 ? 可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。 ? 经济:框架可以运行在任何普通的PC上。 ? 可靠:分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。 ? 高效:分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式,为高效处理海量的信息作了基础准备。 2.3、Hadoop的使用场景 Google最早提出MapReduce是为了海量数据分析,作为google MapReduce的开源实现Hadoop MapReduce的最佳使用场景也是海量数据分析。海量数据存储于HDFS中被分割于多个节点,然后由每一个节点并行计算,将得出的结果归并到输出。同时第一阶段的输出又可以作为下一阶段计算的输入,因此可以想象到一个树状结构的分布式计算图,在不同阶段都有不同产出,同时并行和串行结合的计算也可以很好地在分布式集群的资源下得以高效的处理。 三、Hadoop发展状况及国内外应用情况 Hadoop开源项目的主要支持者和贡献者是yahoo和facebook等国外的互联网公司,在国内也有淘宝、百度、腾讯、中移动等公司在研究使用,同时Hadoop也受到了学术界的普遍关注,国内的高校和科研院所基于Hadoop在数据存储、资源管理、作业调度、 性能优化、系统高可用性和安全性方面进行研究,相关研究成果多以开源形式贡献给Hadoop社区。 Hadoop目前最稳定的版本为0.20.0,这个版本还不能称为1.0。尽管如此,Hadoop在国内外得到了广泛的应用: ? 在Hadoop项目官方统计中国外有超过40家公司都在使用Hadoop,其中包括yahoo、facebook、adobe、ebay、MySpace和Amazon等。 ? 在国内的大公司中也开始使用hadoop:百度用Hadoop每天处理 1PB的数据,进行搜索日志分析和网页数据挖掘工作;中移动研究院基于Hadoop开发了“大云”(Big Cloud)系统,不但用于相关数据分析,还对外提供服务;淘宝的Hadoop系统用于存储并处理电子商务的交易相关数据。 四、Hadoop文件系统HDFS HDFS是一个能够兼容普通硬件环境的分布式文件系统, 和现有的分布式文件系统不同的地方是HDFS更注重容错性和兼容廉价的硬件设备,这样做是为了用很小的预算甚至直接利用现有机器就实现大流量和大数据量的读取。 4.1、HDFS设计目标 1. 防止硬件出错导致数据丢失,硬件出错是一种正常的情况而不是异常,为的就是在硬件出错的情况下尽量保证数据完整性,HDFS设计的目标是在成百上千台服务器中存储数据,并且可以快速检测出硬件错误和快速进行数据的自动恢复。 2. 提供流数据读写,不同于普通的文件系统,HDFS是为了程序批量处理数据而设计的,而不是与用户的交互或者随机读写,所以POSIX对程序增加了许多硬性限制,程序必须使用流读取来提高数据吞吐率。 3. 大数据集,HDFS上面一个典型的文件一般是用GB或者TB计算的,而且一个数百台机器组成的集群里面可以支持过千万这样的文件。 4. 简单的文件模型,HDFS上面的文件模型十分简单,就是一次写入多次读取的模型,文件一旦创建,写入并关闭了,之后就再也不会被改变了,只能被读取,这种模型刚好符合搜索引擎的需求,以后可能会实现追加写入数据这样的功能。 5. 强大的跨平台兼容性,由于是基于java的实现,无论是硬件平台或者是软件平台要求都不高,只要是jdk支持的平台都可以兼容。 4.2、HDFS体系结构 HDFS采用的是主从架构,由唯一一个NameNode和数个DataNode组成。HDFS对外 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 现为一个普通的文件系统,用户可以用文件名去存储和访问文件,而实际上文件是被分成不同的数据块,这些数据块就是存储在DataNode上面。 ? NameNode是集群里面的主节点,负责文件名的维护管理,也是客户端访问文件的入口。文件名的维护包括文件和目录的创建、删除、重命名等。同时也管理数据块和数据节点的映射关系,客户端需要访问目录节点才能知道一个文件的所有数据块都保存在哪些数据节点上。 ? DataNode一般就是集群里面的一台机器,负责数据的存储和读取。在写入时,由NameNode分配数据块的保存,然后客户端直接写到对应的数据节点。在读取时,当客户端从NameNode获得数据块的映射关系后,就会直接到对应的DataNode读取数据。数据节点也要根据NameNode的命令创建、删除数据块,和冗余复制。 一个典型的HDFS集群部署,是由一台性能较好的机器运行NameNode,而集群里面的其它机器每台上面运行一个NameNode。当然一个机器可以运行任意多个DataNode,甚至NameNode和DataNode一起运行,不过这种模式在正式的应用部署中很少使用。唯一的NameNode的设计大大简化了整个体系结构,NameNode负责HDFS里面所有元数据的仲裁和存储。这样的设计使数据不会脱离NameNode的控制。HDFS体系结构如下图所示:
本文档为【Hadoop技术体系介绍】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_260251
暂无简介~
格式:doc
大小:23KB
软件:Word
页数:0
分类:互联网
上传时间:2019-08-27
浏览量:11