MapReduce 分组

MapReduce 默认分组

MapReduce 程序的 Map 阶段将按行读取数据，然后 MapTask 任务输出键值对
MapReduce 程序的 Reduce 阶段先按照分区器将键值对划分到不同的分区中（即 ReduceTask）
MapReduce 程序的同一个分区（即同一个 ReduceTask）将根据进行分组，即将 Key 相同的分为同一个组进行聚合操作

MapReduce 自定义分组

如果 MapReduce 的默认分组（即按照相同 Key 值分为一组）的分组方式无法满足业务需求，那么用户可以自定义分组规则

public class MyGroupComparator extends WritableComparator {
    public MyGroupComparator() {
        //指定分组对中 key 的类型，true 为创建该类型的实例，若不指定将报空值错误
        super(Text.class,true);
    }

    @Override
    public int compare(WritableComparable a, WritableComparable b) {
        //自定义分组规则
    }
}

自定义分组类需要继承 WritableComparator 父类并重写 compare() 方法

Job 设置自定义分组

//设置自定义分组（不设置使用默认分组）
job.setGroupingComparatorClass(MyGroupingComparator.class);

MapReduce

MapReduce 分组

MapReduce 默认分组

MapReduce 自定义分组

相关

10．Mapreduce实例——MapReduce自定义输入格式小

07．Mapreduce实例——二次排序

3.Mapreduce实例——排序

MapReduce概述

hadoop3.2.1下MapReduce操作出现错误: 找不到或无法加载主类org.apache.hadoop.mapred

2021.11.20 MapReduce实验

2021.11.19 MapReduce

MapReduce

MapReduce并行编程模型和框架

MapReduce 案例-统计每台智能音箱设备内容播放时长

MapReduce和Hive实现词频统计

实验八-分布式计算MapReduce--词频统计

标签