spark编程


Spark应用程序由两部分组成:

1.DRIVER

2.Executor

基本概念:

Application:Spark应用程序,包含一个Driver program和若干个Executor

SparkContext:Spark应用程序的入口,负责调度各个运算资源,协调各个Worker Node 的Executor

Driver program: 运行Application的main()函数并创建SparkContext

Executor:Application运行在Work node上的一个进程,进程负责运行Task

并且负责将数据存在内存或磁盘上;

Work node:集群中运行Application代码的节点

Cluster Manager: 集群上获取资源的外部服务

Job :作业被拆分成并行计算的工作单元

Stage:每个Job被拆分成多组任务(TASK) ,每组TASK被称为Stage

RDD:Spark最核心的模块,弹性分布式数据集

 Spark可以将任何Hadoop所支持的存储资源(本地文件、HDFS、HBase)转换成RDD.

比如使用textFile方法将本地文件或hdfs文件转换成RDD

textFile("/dfs/directory")

textFile("file:///dfs/data/a.txt")