大三寒假学习 spark学习 spark的部署和应用方式
Spark三种部署方式:
- Standalone,类似于MapReduce1.0 ,slot为资源分配单位
- Spark on Mesos,Mesos和Spark有一定的亲缘关系
- Spark on YARN
Mesos和Yarn联系:
用Spark架构满足批处理和流处理需求:
用Spark架构具有如下优点:
- 实现一键式安装和配置、线程级别的任务监控和告警
- 降低硬件集群、软件维护、任务监控和应用开发的难度
- 便于做成统一的硬件、计算平台资源池
需要说明的是,Spark Streaming无法实现毫秒级的流计算,因此,对于需要毫秒级实时响应的企业应用而言,仍然需要采用流计算框架(如Storm)
Hadoop和Spark的统一部署:
不同的计算框架统一运行在YARN中,可以带来如下好处:
- 计算资源按需伸缩
- 不用负载应用混搭,集群利用率高
- 共享底层存储,避免数据跨集群迁移
由于Hadoop生态系统中的一些组件所实现的功能,目前还是无法由Spark取代的现有的
Hadoop组件开发的应用,完全转移到Spark上需要一定的成本
Spark是个计算框架,无法存储,取代的是MapReduce