Map-Reduce具体实现详解

Map-Reduce具体实现详解Map-Reduce具体实现详解 Keyword: FileSplit:文件的子集--文件分割体简介: 这篇文档描述在hadoop中map和reduce操作是怎样具体完成的。如果你对Google的MapReduce各式模式不熟悉，请先参阅 MapReduce-- 由于Map是并行地对输入的文件集进行操作，所以它的第一步(FileSplit) 就是把文件集分割成一些子集.如果一个单个的文件大到它已影响到查找效率时，它会被分割成一些小的分割体。要指出的是分割这个一步是不知道输入文件的内部逻辑结构的，比如，以...

Map-Reduce具体实现详解 Keyword: FileSplit:文件的子集--文件分割体简介: 这篇文档描述在hadoop中map和reduce操作是怎样具体完成的。如果你对Google的MapReduce各式模式不熟悉，请先参阅 MapReduce-- 由于Map是并行地对输入的文件集进行操作，所以它的第一步(FileSplit) 就是把文件集分割成一些子集.如果一个单个的文件大到它已影响到查找效率时，它会被分割成一些小的分割体。要指出的是分割这个一步是不知道输入文件的内部逻辑结构的，比如，以行为逻辑分割的文本文件会被以任意的字节界限分割，所以这个具体分割要自己去指定也可以用hadoop已经定义的几个简单分割。然后每个文件分割体都会对应地有一个新的map任务。当单个map任务开始时，它会对每个配置过的reduce任务开启一个新的输出书写器(writer).紧接着它(writer)会用从指定的特定InputFormat里得到的RecordReader去读它的文件分割体。InputFormat类分析输入文件并产生key-value键值对.同时InputFormat必需要处理在以文件分割时边界处的记录。比如TextInputFormat会读取分割边界的文件分割体有最后一行，如果当读取的分割体不是第一个时，TextInputFormat会忽略第一行的内容。 InputFormat类并不需要产生一些对有意义的键值对。比如TextInputFormat类的默认输出是以输入文本的行内容为value,以行偏移量为key--大多数应用只用到而很少用到偏移量。传给用户配置的mapper的键值对都是从RecordReader读入的，用户提供的Mapper类就可以对键值对进行任意的操作再调用OutputCollector.collect 方法来重新收集自己定义后的键值对。产生的输出必需用一个Key类和一个value类，这是因为Map的输出结果要被以SequenceFile的形式写入磁盘，这种形式包括每个文件的类型信息和所有的记录都是同类形的(如果你想输出不同的数据结构你可以继承个子类出来)。Map的输入和输出键值对不需要在类型上有联系. 当Mapper的输出被收集后，它们会被Partitioner类以指定的方式区分地写出到输出文件里。默认是以HashPartitioner类用key类的哈希函数产生的hashcode来区分(因此就要有一个很好的哈希函数，才可以使在各个reduce任务时负载匀衡)。详细可以查看MapTask类。N个输入可以产生M个map任务去跑，每个map任务会产生配置的reduce任务数个输出文件。每个输出文件都会面向一个特定的reduce任务同时所有从map任务产生的键值对都会被送到reduce里。所以在一个特定的reduce任务中对于一个给定的key所有的键值对都会被处理。 Combine 当map操作输出它的键值对时他们已经在内存中存在了。为了性能和效率的考虑，有时候提供一个拥有reduce功能的合成器是有好处的。如果有合成器，那么map的键值对就不会被马上写入到输出里，他们会被收集在list里，一个key值一个list，当写入一定数量的键值对时，这部分缓冲会被送进合成器，每个key都的所有value都会被送进合成器的reduce方法里并且就像原先map输出的键值对一样。比如，hadoop案例中的word count程序，它的map操作输出是(word,1)键值对，在输入中的词的计数可以用合成器来加速这个操作。一个合成操作会在内存中收集处理lists，一个词一个list。当一定数量的键值对输出到内存中时，就调用合成操作的reduce方法，每次都以一个唯一的词为key，values是list的迭代器。然后合成器输出(word, count-in-this-part-of-the-input)键值对。从Reduce操作的观点来说合成器也拥有Map输出中相同的信息，但是这样会比原先远远减少硬盘的读写。 Reduce 当一个reduce任务开始时，它的输入是分散在各个节点上的map的输出文件里。如果在分布式的模式下，他们需要先在拷贝步骤里拷贝到本地文件系统上。详细可以查看ReduceTaskRunner类一旦所有的数据都在本地有效时，它会在添加步骤里加到一个文件里。然后这个文件会被合并分类这样相同的key的键值对就可以排在一起(分类步骤)。这样可以使真正的reduce操作变得简单，这个文件会被顺序地读入，值(values)会从输入文件里用一个迭代器传给reduce方法-直到下一个key。详细可以查看ReduceTask类。最后，输出由每个reduce任务的输出文件组成。面他们的格式可以由JobConf.setOutputFormat类指定，如果用到JobConf.setOutputFormat类，那么输出的key类和value类都要同时指定。

                    本文档为【Map-Reduce具体实现详解】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

Map-Reduce具体实现详解

你可能还喜欢