> 文章列表 > 6.MapReduce的框架原理

6.MapReduce的框架原理

6.MapReduce的框架原理

 本章节将分为InputFormat,split,OutputFormat三个小章节来介绍框架原理

1.InputFormat

1.1 切片

        将输入数据分成几份,每份交给一个MapTask去处理(getSplit方法)

        对于MapRedcue,切片发生在客户端,任务提交的时候

        机制:MapTask并行度决定机制

         切了多少片,就开启多少个MapTask

1.2 打碎:

      对于每一个MapTask要处理的那部分数据,InputFormat会将这部分数据打碎成行,从而交给Mapper去处理

     源码细节:

1.3 关于切片的源码剖析:(了解)

   (1)提交任务之前的准备工作:

          driver在向yarn提交任务之前,需要把jar包,切片,配置