如何在云服务器/云主机上部署最新版本的Hadoop3.3.5(Ubuntu20.0.4)

news/2024/5/20 14:52:02/文章来源:https://blog.csdn.net/weixin_49503250/article/details/130303937

在云服务器上部署Hadoop

步骤1:更新系统

sudo apt-get update
sudo apt-get upgrade

步骤2:安装Java

Hadoop需要Java运行环境。首先,安装OpenJDK 8:

sudo apt-get install openjdk-8-jdk

检查Java版本:

java -version

步骤3:创建Hadoop用户

请保证你创建用户的时候,此时你处于root用户下,也就是你当前目录为 /root

为Hadoop创建一个新用户:

sudo adduser --gecos "" hadoop

为新用户设置密码并按照提示操作。接下来,将hadoop用户添加到sudo组:

sudo usermod -aG sudo hadoop

步骤4:下载和解压Hadoop

切换到hadoop用户:

sudo su - hadoop

从Apache官方网站下载Hadoop:

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz

解压Hadoop:

tar -xzf hadoop-3.3.5.tar.gz

步骤5:配置Hadoop环境变量

编辑.bashrc文件,添加以下内容:

export HADOOP_HOME=/home/hadoop/hadoop-3.3.5
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

保存并退出。运行以下命令以更新环境变量:

source ~/.bashrc

步骤6:配置Hadoop

注意:在配置下列4个文件的过程中,这些文件里只能存在一对<configuration></configuration>这样的代码块,请把原有的最下边的这样的代码块删除,然后复制粘贴我提供的代码块。

使用命令:vim $HADOOP_HOME/etc/hadoop/core-site.xml 打开文件core-site.xml,添加以下内容:

<configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property>
</configuration>

使用命令:vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml 打开文件hdfs-site.xml,添加以下内容:

<configuration><property><name>dfs.replication</name><value>1</value></property>
</configuration>

使用命令:vim $HADOOP_HOME/etc/hadoop/mapred-site.xml 打开文件mapred-site.xml,添加以下内容:

<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property>
</configuration>

使用命令:vim $HADOOP_HOME/etc/hadoop/yarn-site.xml 打开文件yarn-site.xml,添加以下内容:

<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>
</configuration>

步骤7:格式化HDFS

在开始使用Hadoop之前,需要对HDFS进行格式化。执行以下命令:

hadoop namenode -format

步骤 7.1 为hadoop用户创建一个SSH密钥对,并将公钥添加到authorized_keys文件中

  1. 使用hadoop用户身份登录。

    • 运行以下命令创建一个新的SSH密钥对(在提示时,您可以按回车选择默认设置,也可以选择输入密码以提高安全性):
ssh-keygen
  1. 在创建密钥对后,将生成的公钥添加到authorized_keys文件中:
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  1. 更改authorized_keys文件的权限,以保护其内容:
chmod 600 ~/.ssh/authorized_keys
  1. 最后,确保SSH服务可以使用密码验证。打开/etc/ssh/sshd_config文件:
sudo vim /etc/ssh/sshd_config
  • 找到PasswordAuthentication这一行并设置为yes:
PasswordAuthentication yes
  • 如果找不到该行,可以在文件末尾添加上述行。

  • 保存并关闭文件。然后重启SSH服务:

sudo systemctl restart ssh

步骤8:启动Hadoop集群

使用以下命令启动Hadoop的NameNode和DataNode守护进程:

start-dfs.sh

使用以下命令启动YARN守护进程:

start-yarn.sh

步骤9:验证Hadoop安装

运行以下命令以检查Hadoop守护进程是否在运行:

jps

您应该看到以下进程:NameNode,DataNode,SecondaryNameNode,NodeManager和ResourceManager。

步骤10 访问Hadoop Web界面

请注意,如果您的云服务提供商有防火墙规则,您可能需要在防火墙中打开这些端口(9870和8088)以允许外部访问。如果您无法访问这些URL,请检查您的防火墙设置,并确保这些端口已开放。

我购买的云服务器是阿里云的,阿里云有防火墙规则,所以我要去云服务器管理控制台上的防火墙,去开放这两个端口。你们如果购买的也是阿里云的云服务器,可以按照我的操作来,如果不是阿里云的云服务器,你们可以类别我的操作。

关于如何找到自己的阿里云服务器的管理控制台,请参照我的这篇文章

  • 保姆级教程:如何购买配置部署使用自己的阿里云主机/云服务器(ubuntu20.0.4)

在这里,添加如下的两条自定义规则。
在这里插入图片描述

现在,您可以通过以下URL访问Hadoop的Web界面:

NameNode:http://自己的公网ip地址:9870/
ResourceManager:http://自己的公网ip地址:8088/

总结

  • 这样就完成了在Ubuntu 20.04上安装和部署Hadoop的过程。现在,您可以开始使用Hadoop进行数据处理和分析。如果您遇到任何问题,请随时私信,我会尽力帮助您

  • 最后的最后,如果你觉得我的这篇文章写的不错的话,请给我一个赞与收藏,关注我,我会继续给大家带来更多更优质的干货内容

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_290376.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

掌握Linux指令和权限:一个入门教程

目录 一.Linux基本指令1.ls指令2.pwd指令3.cd指令4.touch指令5.mkair指令6.rmdir和rm指令 一.Linux基本指令 1.ls指令 语法格式:ls [选项][目录或者文件] 功能&#xff1a;对于目录&#xff0c;该命令列出该目录下的所有子目录与文件。对于文件&#xff0c;将列出文件名以及其…

EtherCAT和Ethernet的不同点有哪些, 通信周期又是什么意思?

小伙伴们&#xff0c;我们又来了。上期大概介绍了EtherCAT的一些特性&#xff0c;本期我们将会更详细的介绍一下EtherCAT的实现方式&#xff0c;通信周期的意义到底是什么、SDO和PDO到底是什么等概念。 首先要声明&#xff0c;尽管本期介绍略微深入&#xff0c;实际上小伙伴使…

响应式开发HTML5CSS3实现视频播放器的功能案例

目录 前言 一、本视频播放器需要实现的功能 ​二、代码分布结构 三、部分主要代码 1.index01.html 2.video1.css 3.video1.js 四、images图片资源及视频 五、运行效果 前言 1.本文讲解的响应式开发技术&#xff08;HTML5CSS3Bootstrap&#xff09;的HTML5视频播放器等…

AIPRM for ChatGPT插件让ChatGPT如虎添翼

ChatGPT大热&#xff0c;家人们都申请到了账号&#xff0c;可是总是在一问一答的基础上来完成基本的应用&#xff0c;而不能很好的使用「咒语」&#xff08;Prompt&#xff09;&#xff0c;收获的答案不是通过很多次的反复问获取答案&#xff0c;就是获取的不是想要的答案。所以…

【HCIP】Huawei设备下IPV4IPV6共存实验

目录 方法一、普通的GRE将V6基于V4通讯 方法二、6to4的tunnel 方法三、双栈 方法一、普通的GRE将V6基于V4通讯 //方法一和方法二的前提&#xff0c;搭个简单的V4网络就行 [r1]int g0/0/0 [r1-GigabitEthernet0/0/0]ip address 12.1.1.1 24 [r1]router id 1.1.1.1 [r1-Gigabi…

分布式数据一致性解决方案推理过程

redis是一个极轻量级的进程&#xff0c;单机单线程单进程。 使用redis很容易实现分布式锁&#xff1a;setnx&#xff0c;同一个key&#xff0c;谁设置成功了&#xff0c;谁就抢到了锁&#xff0c;所以就产生了多锁问题。 假设客户端1抢到了锁&#xff0c;redis挂了&#xff0c…

不懂就问,Milvus 新上线的资源组功能到底怎么样?

在近期更新的 Milvus 2.x 版本中&#xff0c;我们上线了在社区中呼声一直很高的【资源组功能】。有了这个功能&#xff0c;用户再也不需要“为每个 collection 部署一套 Milvus 服务”的方案&#xff0c;轻松实现对 Query Node 资源进行分组管理&#xff0c;达到物理资源隔离的…

运行时内存数据区之执行引擎(一)

执行引擎概述 执行引擎是Java虚拟机核心的组成部分之一。 “虚拟机”是一个相对于“物理机”的概念&#xff0c;这两种机器都有代码执行能力&#xff0c;其区别是物理机的执行引擎是直接建立在处理器、缓存、指令集和操作系统层面上的&#xff0c;而虚拟机的执行引擎则是由软…

「计算机控制系统」6. 直接设计法

特殊类型系统的最小拍无差设计 一般系统的最小拍无差设计 最小拍控制器的工程化改进 Dahlin算法 文章目录 特殊类型系统的最小拍无差设计理论分析典型输入函数的最小拍无差系统 一般系统的最小拍无差设计有波纹最小拍无差设计无波纹最小拍无差设计 最小拍控制器的工程化改进针对…

浅析商场智能导购系统功能与实施效益

商场智能导购系统是一种基于物联网技术和人工智能算法的解决方案&#xff0c;旨在提供商场内部的智能导购服务&#xff0c;为消费者提供个性化的购物导引和推荐&#xff0c;提升用户购物体验&#xff0c;增加商场的客流量和销售额。 商场智能导购系统的方案一般包括以下主要功能…

LeetCode 27.移除元素

文章目录 &#x1f4a1;题目分析&#x1f4a1;解题思路&#x1f6a9;思路1:暴力求解 --- 遍历&#x1f514;接口源码&#xff1a;&#x1f6a9;思路2:空间换时间&#x1f514;接口源码&#xff1a;&#x1f6a9;思路3:双指针&#xff08;快慢指针&#xff09;&#x1f514;接口…

tftp+Filezilla文件双向传输(1)-centos(VMware)-win10(host)

目录 1.下载安装vsftpdtftptftp-server 2.配置服务 2.1 配置服务 修改文件 /etc/vsftpd.conf 2.2 配置服务 守护进程 /etc/xinetd.d/tftp 2.3 配置服务 tftp服务器 2.4 配置登录用户 2.4.1 修改selinux 2.4.2 匿名用户登录 2.4.3 新建账户&#xff0c;不能登陆系…

Linux时间服务器(ntp)

1.配置ntp时间服务器&#xff0c;确保客户端主机能和服务主机同步时间 2.配置ssh免密登陆&#xff0c;能够通过客户端主机通过redhat用户和服务端主机基于公钥验证方式进行远程连接 一.配置ntp时间服务器&#xff0c;确保客户端主机能和服务主机同步时间 1、软件安装 [rootl…

Liunx下进程间通信

文章目录 前言1.进程间通信相关介绍2.管道1.匿名管道2.管道的原理3.通过代码来演示匿名管道4.命名管道5.命名管道的原理6.命名管道代码演示 3.System V共享内存1.共享内存原理2.相关系统接口的介绍与共享内存的代码演示3.共享内存的一些特性 4.system V消息队列与system V信号量…

TryHackMe-Services(Windows域渗透)

Services 认识团队&#xff01; 今天thm新出的房间&#xff0c;尝尝鲜 端口扫描 循例nmap 把services.local加入hosts Web枚举 发现员工邮箱以及一些员工姓名 从下边的邮箱中&#xff0c;大致可以猜测其他员工账户名跟这个一致的格式 将其保存起来 立足 - AS-REP Roasting…

Linux基础—日志分析

Linux基础—日志分析 一、日志的功能1.日志消息的级别2.设备字段说明 二、日志文件的分类1.内核及系统日志2.用户日志3.程序日志 三、日志文件1.日志文件查看2.主要日志文件介绍3.日志管理策略 一、日志的功能 用于记录系统、程序运行中发生的各种事件 通过阅读日志&#xff0c…

2023第十四届蓝桥杯 C/C++大学生A组省赛 满分题解

写在前面 以下代码&#xff0c;目前均可通过民间OJ数据&#xff08;dotcpp & New Online Judge&#xff09;&#xff0c; 两个OJ题目互补&#xff0c;能构成全集&#xff0c;可以到对应链接下搜题提交&#xff08;感谢OJ对题目的支持&#xff09; 如果发现任何问题&…

论文各子结构的实现

本文将简明介绍人工智能论文各子结构的实现方法&#xff0c;重点指出了各部分实现时的要点&#xff0c;帮助读者高效地完成论文的写作。 1. 标题 论文标题的确定必须遵循明确而有吸引力的原则。论文的题目需要准确反映自己论文的研究内容和创新点&#xff0c;同时还必须具有吸…

【LeetCode: 1027. 最长等差数列 | 暴力递归=>记忆化搜索=>动态规划】

&#x1f680; 算法题 &#x1f680; &#x1f332; 算法刷题专栏 | 面试必备算法 | 面试高频算法 &#x1f340; &#x1f332; 越难的东西,越要努力坚持&#xff0c;因为它具有很高的价值&#xff0c;算法就是这样✨ &#x1f332; 作者简介&#xff1a;硕风和炜&#xff0c;…

(算法基础)完全背包问题

完全背包问题 完全背包问题就是在背包问题大逻辑前提之下&#xff0c;给定的n个物品没有个数的限制。对于完全背包问题的状态表示与01背包问题是一样的&#xff0c;f(i, j)&#xff0c;这个二维的集合表示&#xff1a;在前i个物品当中去选择&#xff0c;并且总体积小于等于j&a…