大三寒假学习 spark学习 spark的部署和应用方式


Spark三种部署方式:

  • Standalone,类似于MapReduce1.0 ,slot为资源分配单位
  • Spark on Mesos,Mesos和Spark有一定的亲缘关系
  • Spark on YARN

Mesos和Yarn联系:

  

 用Spark架构满足批处理和流处理需求:

  

用Spark架构具有如下优点:

  • 实现一键式安装和配置、线程级别的任务监控和告警
  • 降低硬件集群、软件维护、任务监控和应用开发的难度
  • 便于做成统一的硬件、计算平台资源池

需要说明的是,Spark Streaming无法实现毫秒级的流计算,因此,对于需要毫秒级实时响应的企业应用而言,仍然需要采用流计算框架(如Storm)

Hadoop和Spark的统一部署:

  

不同的计算框架统一运行在YARN中,可以带来如下好处:

  • 计算资源按需伸缩
  • 不用负载应用混搭,集群利用率高
  • 共享底层存储,避免数据跨集群迁移

由于Hadoop生态系统中的一些组件所实现的功能,目前还是无法由Spark取代的现有的

Hadoop组件开发的应用,完全转移到Spark上需要一定的成本

Spark是个计算框架,无法存储,取代的是MapReduce

相关