如何在云服务器/云主机上部署最新版本的Hadoop3.3.5（Ubuntu20.0.4）

news/2024/5/20 14:52:02/文章来源:https://blog.csdn.net/weixin_49503250/article/details/130303937

在云服务器上部署Hadoop

步骤1：更新系统

sudo apt-get update
sudo apt-get upgrade

步骤2：安装Java

Hadoop需要Java运行环境。首先，安装OpenJDK 8：

sudo apt-get install openjdk-8-jdk

检查Java版本：

java -version

步骤3：创建Hadoop用户

请保证你创建用户的时候，此时你处于root用户下，也就是你当前目录为 /root

为Hadoop创建一个新用户：

sudo adduser --gecos "" hadoop

为新用户设置密码并按照提示操作。接下来，将hadoop用户添加到sudo组：

sudo usermod -aG sudo hadoop

步骤4：下载和解压Hadoop

切换到hadoop用户：

sudo su - hadoop

从Apache官方网站下载Hadoop：

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz

解压Hadoop：

tar -xzf hadoop-3.3.5.tar.gz

步骤5：配置Hadoop环境变量

编辑.bashrc文件，添加以下内容：

export HADOOP_HOME=/home/hadoop/hadoop-3.3.5
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

保存并退出。运行以下命令以更新环境变量：

source ~/.bashrc

步骤6：配置Hadoop

注意：在配置下列4个文件的过程中，这些文件里只能存在一对<configuration></configuration>这样的代码块，请把原有的最下边的这样的代码块删除，然后复制粘贴我提供的代码块。

使用命令：vim $HADOOP_HOME/etc/hadoop/core-site.xml 打开文件core-site.xml，添加以下内容：

<configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property>
</configuration>

使用命令：vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml 打开文件hdfs-site.xml，添加以下内容：

<configuration><property><name>dfs.replication</name><value>1</value></property>
</configuration>

使用命令：vim $HADOOP_HOME/etc/hadoop/mapred-site.xml 打开文件mapred-site.xml，添加以下内容：

<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property>
</configuration>

使用命令：vim $HADOOP_HOME/etc/hadoop/yarn-site.xml 打开文件yarn-site.xml，添加以下内容：

<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>
</configuration>

步骤7：格式化HDFS

在开始使用Hadoop之前，需要对HDFS进行格式化。执行以下命令：

hadoop namenode -format

步骤 7.1 为hadoop用户创建一个SSH密钥对，并将公钥添加到authorized_keys文件中

使用hadoop用户身份登录。
- 运行以下命令创建一个新的SSH密钥对（在提示时，您可以按回车选择默认设置，也可以选择输入密码以提高安全性）：

ssh-keygen

在创建密钥对后，将生成的公钥添加到authorized_keys文件中：

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

更改authorized_keys文件的权限，以保护其内容：

chmod 600 ~/.ssh/authorized_keys

最后，确保SSH服务可以使用密码验证。打开/etc/ssh/sshd_config文件：

sudo vim /etc/ssh/sshd_config

找到PasswordAuthentication这一行并设置为yes：

PasswordAuthentication yes

如果找不到该行，可以在文件末尾添加上述行。
保存并关闭文件。然后重启SSH服务：

sudo systemctl restart ssh

步骤8：启动Hadoop集群

使用以下命令启动Hadoop的NameNode和DataNode守护进程：

start-dfs.sh

使用以下命令启动YARN守护进程：

start-yarn.sh

步骤9：验证Hadoop安装

运行以下命令以检查Hadoop守护进程是否在运行：

jps

您应该看到以下进程：NameNode，DataNode，SecondaryNameNode，NodeManager和ResourceManager。

步骤10 访问Hadoop Web界面

请注意，如果您的云服务提供商有防火墙规则，您可能需要在防火墙中打开这些端口（9870和8088）以允许外部访问。如果您无法访问这些URL，请检查您的防火墙设置，并确保这些端口已开放。

我购买的云服务器是阿里云的，阿里云有防火墙规则，所以我要去云服务器管理控制台上的防火墙，去开放这两个端口。你们如果购买的也是阿里云的云服务器，可以按照我的操作来，如果不是阿里云的云服务器，你们可以类别我的操作。

关于如何找到自己的阿里云服务器的管理控制台，请参照我的这篇文章

保姆级教程：如何购买配置部署使用自己的阿里云主机/云服务器（ubuntu20.0.4）

在这里，添加如下的两条自定义规则。
在这里插入图片描述

现在，您可以通过以下URL访问Hadoop的Web界面：

NameNode：http://自己的公网ip地址:9870/
ResourceManager：http://自己的公网ip地址:8088/

总结

这样就完成了在Ubuntu 20.04上安装和部署Hadoop的过程。现在，您可以开始使用Hadoop进行数据处理和分析。如果您遇到任何问题，请随时私信，我会尽力帮助您。
最后的最后，如果你觉得我的这篇文章写的不错的话，请给我一个赞与收藏，关注我，我会继续给大家带来更多更优质的干货内容。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_290376.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

如何在云服务器/云主机上部署最新版本的Hadoop3.3.5（Ubuntu20.0.4）

在云服务器上部署Hadoop

步骤1：更新系统

步骤2：安装Java

步骤3：创建Hadoop用户

步骤4：下载和解压Hadoop

步骤5：配置Hadoop环境变量

步骤6：配置Hadoop

步骤7：格式化HDFS

步骤 7.1 为hadoop用户创建一个SSH密钥对，并将公钥添加到authorized_keys文件中

步骤8：启动Hadoop集群

步骤9：验证Hadoop安装

步骤10 访问Hadoop Web界面

总结

相关文章

掌握Linux指令和权限：一个入门教程

EtherCAT和Ethernet的不同点有哪些, 通信周期又是什么意思?

响应式开发HTML5CSS3实现视频播放器的功能案例

AIPRM for ChatGPT插件让ChatGPT如虎添翼

【HCIP】Huawei设备下IPV4IPV6共存实验

分布式数据一致性解决方案推理过程

不懂就问，Milvus 新上线的资源组功能到底怎么样？

运行时内存数据区之执行引擎(一)

「计算机控制系统」6. 直接设计法

浅析商场智能导购系统功能与实施效益

LeetCode 27.移除元素

tftp+Filezilla文件双向传输（1）-centos(VMware)-win10(host)

Linux时间服务器（ntp）

Liunx下进程间通信

TryHackMe-Services（Windows域渗透）

Linux基础—日志分析

2023第十四届蓝桥杯 C/C++大学生A组省赛满分题解

论文各子结构的实现

【LeetCode: 1027. 最长等差数列 | 暴力递归=＞记忆化搜索=＞动态规划】

(算法基础)完全背包问题