征文投稿丨使用轻量应用服务器部署Hadoop云集群


编者按:本文来自轻量应用服务器征文活动用户投稿,已获得作者(昵称Maynor大数据)授权发布。

 

由于我在工作学习中经常需要使用到Hadoop集群,而本地Hadoop有启动速度慢、操作麻烦和占用内存等痛点。最近在和粉丝的交流中,一位提到的伪分布式部署Hadoop的概念启发了我。正好领取的服务器还没开始用,何不用来部署云集群?以下为具体的部署过程,我选择的是Hadoop3.x的伪分布式部署方法。

 

1、领取轻量应用服务器

阿里云的产品活动还是很给力的,遇到像双11这样的大促活动,甚至可以做到免费获得服务器。如果你是学生,买轻量应用服务器还是很便宜的,只需要9元/月, 也可以参与阿里云开发者成长计划。

image005-裁剪.png

 

2、服务器选择和配置

这里选择的是轻量应用服务器,系统镜像和应用镜像不需要改变,保持默认值就行(WordPress, CentOS 7.3)。

image007-裁剪.jpg

 

这里需要设置root权限和密码

设置成功后通过本地terminal(MAC)或者cmd(Windows)来构建ssh:

ssh root@****

然后输入之前设置的root的权限密码(注意:这里的密码是不会有任何显示的)

image009.png

 

若出现上图的情况,需要清理一下之前的key:

ssh-keygen -R XX.XX.XX.XX

然后再次用ssh连接,然后yes,到此我们进入到了阿里云的服务器。

image.gifimage011.png

 

3、配置java环境

首先下载java的jdk:

 

wget https://download.java.net/openjdk/jdk8u41/ri/openjdk-8u41-b04-linux-x64-14_jan_2020.tar.gz

 

然后解压:

 

tar -zxvf openjdk-8u41-b04-linux-x64-14_jan_2020.tar.gz

 

移动位置并且配置java路径:

 

mv java-se-8u41-ri/ /usr/java8
echo 'export JAVA_HOME=/usr/java8' >> /etc/profile
echo 'export PATH=$PATH:$JAVA_HOME/bin' >> /etc/profile
source /etc/profile

 

检查是否安装成功:

 

java -version

 

若安装成功会出现如下结果:

image013.png

 

4、进行Hadoop的安装

这个是清华的镜像源,国内的小伙伴下载比较快:

 

# 借助清华源下载Hadoop
wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz

 

按照惯例解压:

 

tar -zxvf hadoop-3.2.2.tar.gz -C /opt/
mv /opt/hadoop-3.2.2 /opt/hadoop

 

配置地址:

 

echo 'export HADOOP_HOME=/opt/hadoop/' >> /etc/profile
echo 'export PATH=$PATH:$HADOOP_HOME/bin' >> /etc/profile
echo 'export PATH=$PATH:$HADOOP_HOME/sbin' >> /etc/profile
source /etc/profile

 

配置yarn和hadoop:

 

echo "export JAVA_HOME=/usr/java8" >> /opt/hadoop/etc/hadoop/yarn-env.sh
echo "export JAVA_HOME=/usr/java8" >> /opt/hadoop/etc/hadoop/hadoop-env.sh

 

查看Hadoop 安装情况:

 

hadoop version

 

若出现下图情况,则说明安装成功。

image015.png

 

5、利用vim来操作core-site 和 hdfs-site

输入以下命令:

 

vim /opt/hadoop/etc/hadoop/core-site.xml

 

进入vim环境,如下图示:

image017.png

 

按下i(insert)修改

光标移动至configuration之间,复制如下的信息:

 

        
        hadoop.tmp.dir        
        file:/opt/hadoop/tmp        
        location to store temporary files    
        
            
        fs.defaultFS        
        hdfs://localhost:9000    
    

 

然后按下esc,停止修改,然后打":wq"(实际无“”)退出vim修改。

同理,操作hdfs-site

输入命令行:

 

vim /opt/hadoop/etc/hadoop/hdfs-site.xml

 

移动光标,复制以下信息:

 


        dfs.replication
        1    
        
            
        dfs.namenode.name.dir        
        file:/opt/hadoop/tmp/dfs/name    
        
            
        dfs.datanode.data.dir        
        file:/opt/hadoop/tmp/dfs/data    
    

 

配置master和slave连接,运行如下指令,并且一直回车,直至出现如下图:

ssh-keygen -t rsa

image018.png

 

运行如下代码:

 

cd .ssh
cat id_rsa.pub >> authorized_keys

 

启动Hadoop:

 

hadoop namenode -format
start-dfs.sh
start-yarn.sh

 

踩坑提醒:

ERROR: but there is no YARN_NODEMANAGER_USER defined. Aborting operation

这里踩了一个小坑,出现如上面的错误提示,解决方案参考:

https://blog.csdn.net/ystyaoshengting/article/details/103026872

 

查看是否配置成功:

jps

 

配置成功图如下:

image020.png

 

6、配置防火墙端口

接下来需要开启你在阿里云的防火墙端口,才可以在浏览器上访问,否则你怎么弄都是访问不到。

image021-打码.png

 

最后你就可以在浏览器输入XX.XX.XX.XX:9870 或者XX.XX.XX.XX:8088来在浏览器上访问你的Hadoop,效果图如下:

image023-裁剪.png

image025-裁剪.png

 

以上就是使用Hadoop3.x的伪分布式部署方法,利用轻量应用服务器部署云集群的全过程,希望对你有所帮助。

 

点击我要投稿,查看全新升级的轻量应用服务器征文活动,奖励提升,每月都可以投稿。