大数据_调度平台_配置DolphinScheduler_调度大数据任务

1.基本概念了解

01.大数据集群
 HDFS集群：
    负责海量数据的存储，
    集群中的角色主要有 NameNode / DataNode
 YARN集群：
    负责海量数据运算时的资源调度，
    集群中的角色主要有 ResourceManager /NodeManager
    HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起
 Spark集群
     负责海量数据运算，
     集群中的角色主要有  Master Worker 
 	    driver executor 
 02.各个服务和IP的对应关系
 
 03.端口
    HDFS页面：			50070
    YARN的web管理界面：	8088
    YARN的ResourceManager 的application manager端口： 8032
    HistoryServer的管理界面：19888
    Hive webUI 页面: 	10002	
    spark webUI 端口 	8080
    Zookeeper的服务端口号：2181  
    ZooKeeper自带的基本命令进行增删改查 没看到自带的webUI

2.配置Work内容

 work ： /tmp/dolphinscheduler/exec/process/ 

 1.配置HDFS服务
     01.客户端-以及客户端的配置文件
	   docker cp ~/soft/work_conf_hdfs_yarn/yarn-site.xml docker-swarm-dolphinscheduler-worker-1:/opt/soft/hadoop/etc/hadoop/
   	
     02.配置文件在以下文件里：
	 进入-- docker exec -it docker-swarm-dolphinscheduler-worker-1 /bin/bash  
	 hostname -p 
     	core_site.xml, 
     	hdfs_site.xml, 
     	mapred_site.xml
     	yarn-site.xml
     	 其中： 
     	    core_site.xml
     	          fs.default.name
     		hdfs_site.xml
     		mapred_site.xml
     		yarn-site.xml
     		   yarn.resourcemanager.address
 	03.配置本地的环境
 	   环境变量
     		   
     04.集群的内容
         了解集群的一些配置项-方便配置到本地
		 
	
	05.具体配置
	  在配置文件mapred-site.xml中加入这个值的赋值
          
           hdp.version
           3.0.1.0-187
          
 		
 		
 2.配置Spark服务
  Spark 为各种集群管理器提供了统一的工具来提交作业，这个工具就是 spark-submit
  以集群模式运行。可以通过指定 --master 参数
       配置文件地址
 	  
 	  运行方式  
 	     Spark-Local(client)	
          Spark-YARN(cluster)

大数据和AI以及云计算_架构

大数据_调度平台_配置DolphinScheduler_调度大数据任务

1.基本概念了解

2.配置Work内容

相关

标签