第五章_Spark核心编程_Rdd执行原理


1. 思考 : 处理数据 需要哪些东西呢? 

  1.  计算资源(CPU&内存)
  2. 计算模型(也就是计算逻辑)

2. 在Yarn 环境中,Rdd 执行流程

1. 启动 Yarn 集群环境

2. Spark 通过申请资源创建调度节点(ApplicationMaster)和计算节点(Executor)

3. Spark 框架根据需求将计算逻辑根据分区划分成不同的任务

4. 调度节点将任务根据计算节点状态发送到对应的计算节点进行计算

3. 总结说明 : 

  1. 提交任务给Yarn
  2. 申请资源 ApplicationMaster、NodeManager-container-executor
  3. Driver 将任务进行拆分成不同的Task
  4. 将拆分后的Task 分发到不同的Executor中