Hive 作业中Reduce个数设置多少合适呢？

文章列表

前言

在上一篇文章《Hive 作业产生的map数越多越好还是越少越好？》中介绍了map个数设置多少合适的问题，那么Reduce个数设置多少合适呢？今天就给小伙伴们聊一下Reduce个数设置方法以及设置多少合适的原则！

首先我们来看下reduce数的计算公式：

N=min(参数2，总输入数据量/参数1)

上述参数说明：

参数1：每个reduce任务处理的数据量大小，默认值为256M。

可以通过如下参数进行设置：

set hive.exec.reducers.bytes.per.reducer=256000000;

参数2：每个job最大的reduce数，默认1009

可以通过如下参数进行设置：

set hive.exec.reducers.max=1009;

在Hadoop的mapred-default.xml文件中修改设置每个job的reduce数：

set mapreduce.job.reduces=20;

在设置reduce个数的时候，需要考虑以下两个原则：

reduce个数并不是越多越好，也不是越少越好！
设置过多：

设置过少：

我们需要根据原则和方法设置合适的Redece个数！