Spark算子

Spark的transformation算子（不少于8个）（重点）

单Value

（1）map：将处理的数据逐条进行映射转换，这里的转换可以是类型的转换，也可以是值的转换

（2）mapPartitions：将待处理的数据以分区为单位发送到计算节点进行处理，这里的处理是指可以进行任意的处理，哪怕是过滤数据

map和mapPartitions区别
1）map：每次处理一条数据
2）mapPartitions：每次处理一个分区数据

（3）mapPartitionsWithIndex：将待处理的数据以分区为单位发送到计算节点进行处理，这里的处理是指可以进行任意的处理，哪怕是过滤数据，在处理时同时可以获取当前分区索引

（4）flatMap：将处理的数据进行扁平化后再进行映射处理，所以算子也称之为扁平映射

（5）glom：将同一个分区的数据直接转换为相同类型的内存数组进行处理，分区不变

? 小功能：计算所有分区最大值求和（分区内取最大值，分区间最大值求和）

（6）groupBy：将数据根据指定的规则进行分组, 分区默认不变，但是数据会被打乱重新组合，我们将这样的操作称之为 shuffle。极限情况下，数据可能被分在同一个分区中

一个组的数据在一个分区中，但是并不是说一个分区中只有一个组

? 小功能：

将 List("Hello", "hive", "hbase", "Hadoop")根据单词首写字母进行分组。
从服务器日志数据 apache.log 中获取每个时间段访问量。
WordCount。

（7）filter：将数据根据指定的规则进行筛选过滤，符合规则的数据保留，不符合规则的数据丢弃。当数据进行筛选过滤后，分区不变，但是分区内的数据可能不均衡，生产环境下，可能会出现数据倾斜

小功能：从服务器日志数据 apache.log 中获取 2015 年 5 月 17 日的请求路径

（8）sample：根据指定的规则从数据集中抽取数据

（9）distinct：将数据集中重复的数据去重

（10）coalesce：根据数据量缩减分区，用于大数据集过滤后，提高小数据集的执行效率

当 spark 程序中，存在过多的小任务的时候，可以通过 coalesce 方法，收缩合并分区，减少分区的个数，减小任务调度成本

（11）repartition：该操作内部其实执行的是 coalesce 操作，参数 shuffle 的默认值为 true。无论是将分区数多的RDD 转换为分区数少的 RDD，还是将分区数少的 RDD 转换为分区数多的 RDD，repartition操作都可以完成，因为无论如何都会经 shuffle 过程

Repartition和Coalesce区别
关系：
两者都是用来改变RDD的partition数量的，repartition底层调用的就是coalesce方法：coalesce(numPartitions, shuffle = true)
区别：
repartition一定会发生shuffle，coalesce根据传入的参数来判断是否发生shuffle
一般情况下增大rdd的partition数量使用repartition，减少partition数量时使用coalesce

（12）sortBy：该操作用于排序数据。在排序之前，可以将数据通过 f 函数进行处理，之后按照 f 函数处理的结果进行排序，默认为升序排列。排序后新产生的 RDD 的分区数与原 RDD 的分区数一致。中间存在 shuffle 的过程

（13）pipe：

双vlaue

? （1）intersection：对源 RDD 和参数 RDD 求交集后返回一个新的 RDD

? （2）union：对源 RDD 和参数 RDD 求并集后返回一个新的 RDD

? （3）subtract：以一个 RDD 元素为主，去除两个 RDD 中重复元素，将其他元素保留下来。求差集

? （4）zip：将两个 RDD 中的元素，以键值对的形式进行合并。其中，键值对中的 Key 为第 1 个 RDD中的元素，Value 为第 2 个 RDD 中的相同位置的元素

3）Key-Value

? （1）partitionBy：将数据按照指定 Partitioner 重新进行分区。Spark 默认的分区器是 HashPartitioner

? （2）reduceByKey：可以将数据按照相同的 Key 对 Value 进行聚合

? （3）groupByKey：将数据源的数据根据 key 对 value 进行分组

reduceByKey与groupByKey的区别
reduceByKey：具有预聚合操作
groupByKey：没有预聚合
在不影响业务逻辑的前提下，优先采用reduceByKey。

? （4）aggregateByKey：将数据根据不同的规则进行分区内计算和分区间计算

? （5）foldByKey：当分区内计算规则和分区间计算规则相同时，aggregateByKey 就可以简化为 foldByKey

? （6）combineByKey：最通用的对 key-value 型 rdd 进行聚集操作的聚集函数（aggregation function）。类似于aggregate()，combineByKey()允许用户返回值的类型与输入不一致。

reduceByKey、foldByKey、aggregateByKey、combineByKey区别
ReduceByKey 没有初始值分区内和分区间逻辑相同
foldByKey 有初始值分区内和分区间逻辑相同
aggregateByKey 有初始值分区内和分区间逻辑可以不同
combineByKey 初始值可以变化结构分区内和分区间逻辑不同

? （7）sortByKey：在一个(K,V)的 RDD 上调用，K 必须实现 Ordered 接口(特质)，返回一个按照 key 进行排序的

? （8）mapValues

? （9）join：在类型为(K,V)和(K,W)的 RDD 上调用，返回一个相同 key 对应的所有元素连接在一起的(K,(V,W))的 RDD

? （10）cogroup：在类型为(K,V)和(K,W)的 RDD 上调用，返回一个(K,(Iterable,Iterable))类型的 RDD

Spark的action算子（不少于6个）（重点）

（1）reduce：聚集 RDD 中的所有元素，先聚合分区内数据，再聚合分区间数据

（2）collect：在驱动程序中，以数组 Array 的形式返回数据集的所有元素

（3）count：返回 RDD 中元素的个数

（4）first：返回 RDD 中的第一个元素

（5）take：返回一个由 RDD 的前 n 个元素组成的数组

（6）takeOrdered：返回该 RDD 排序后的前 n 个元素组成的数组

（7）aggregate：分区的数据通过初始值和分区内的数据进行聚合，然后再和初始值进行分区间的数据聚合

（8）fold：折叠操作，aggregate 的简化版操作

（9）countByKey：统计每种 key 的个数

（10）save：将数据保存到不同格式的文件中

（11）foreach：分布式遍历 RDD 中的每一个元素，调用指定函数

spark

Spark算子

Spark的transformation算子（不少于8个）（重点）

单Value

双vlaue

Spark的action算子（不少于6个）（重点）

相关

spark 数据流输出

Spark 安装部署与快速上手

Spark面试题（八）——Spark的Shuffle配置调优

spark参数调优

spark jvm参数优化（fullgc）

hadoop系列整理---PySpark

【Spark】Day02：Spark-Core：RDD、编程、数据读取保存、累加器、广播变量、top10

Flume+Kafka+SparkStreaming打造实时流处理框架

Spark SQL知识点与实战

【Spark学习笔记】广播变量和累加器

【Spark学习笔记】01-Spark简介

spark中agg函数的使用

标签