1.基本概念了解
01.大数据集群
HDFS集群:
负责海量数据的存储,
集群中的角色主要有 NameNode / DataNode
YARN集群:
负责海量数据运算时的资源调度,
集群中的角色主要有 ResourceManager /NodeManager
HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起
Spark集群
负责海量数据运算,
集群中的角色主要有 Master Worker
driver executor
02.各个服务和IP的对应关系
03.端口
HDFS页面: 50070
YARN的web管理界面: 8088
YARN的ResourceManager 的application manager端口: 8032
HistoryServer的管理界面:19888
Hive webUI 页面: 10002
spark webUI 端口 8080
Zookeeper的服务端口号:2181
ZooKeeper自带的基本命令进行增删改查 没看到自带的webUI
2.配置Work内容
work : /tmp/dolphinscheduler/exec/process/
1.配置HDFS服务
01.客户端-以及客户端的配置文件
docker cp ~/soft/work_conf_hdfs_yarn/yarn-site.xml docker-swarm-dolphinscheduler-worker-1:/opt/soft/hadoop/etc/hadoop/
02.配置文件在以下文件里:
进入-- docker exec -it docker-swarm-dolphinscheduler-worker-1 /bin/bash
hostname -p
core_site.xml,
hdfs_site.xml,
mapred_site.xml
yarn-site.xml
其中:
core_site.xml
fs.default.name
hdfs_site.xml
mapred_site.xml
yarn-site.xml
yarn.resourcemanager.address
03.配置本地的环境
环境变量
04.集群的内容
了解集群的一些配置项-方便配置到本地
05.具体配置
在配置文件mapred-site.xml中加入这个值的赋值
hdp.version
3.0.1.0-187
2.配置Spark服务
Spark 为各种集群管理器提供了统一的工具来提交作业,这个工具就是 spark-submit
以集群模式运行。可以通过指定 --master 参数
配置文件地址
运行方式
Spark-Local(client)
Spark-YARN(cluster)