Hadoop 的基础知识

news/2024/5/19 18:36:39/文章来源:https://blog.csdn.net/YKenan/article/details/128460613

Hadoop 的基础知识

    • 1. Hadoop 简介
    • 2. Hadoop 的发展简史
    • 3. Hadoop 现状
    • 4. Hadoop 特性优点
    • 5. Hadoop 发行版本
    • 6. Hadoop 架构变迁
    • 7. Hadoop 集群集体概念

1. Hadoop 简介

Hadoop 官网: https://hadoop.apache.org/

Apache Hadoop 软件库是一个框架, 是 Apache 软件基金会的一款开源软件, Java 语言实现的. 允许使用简单的编程模型跨计算机集群分布式处理大型数据集. 它被设计为从单个服务器扩展到数千台机器, 每台机器都提供本地计算和存储. 与其依赖硬件来提供高可用性, 库本身设计用于检测和处理应用程序层的故障, 因此可以在计算机群集上提供高可用服务, 每个计算机群集都可能发生故障.

Hadoop 核心组件:

  1. Hadoop Common: 支持其他 Hadoop 模块的通用公共程序, 相当于在写项目时所使用的 Util 类的集合.
  2. Hadoop Distributed File System (HDFS): 提供对应用程序数据的高吞吐量访问的分布式文件系统, 解决海量数据存储.
  3. Hadoop YARN: 作业调度和集群资源管理的框架, 解决资源任务调度.
  4. Hadoop MapReduce: 基于 YARN 的大型数据集并行处理系统, 解决海量数据计算.

2. Hadoop 的发展简史

Hadoop 之父: Doug Cutting.
Hadoop 起源于 Apache Lucene 子项目: Nutch
Nutch 的设计目标是构建一个大型的全网搜索引擎. 在此过程中遇到了瓶颈, 如何解决数十亿网页的存储和索引问题.

Google 三篇论文:
1. 《The Google file system》: 谷歌分布式文件系统 GFS
2. 《MapReduce: Simplified Data Processing on Large Clusters》: 谷歌分布式计算框架 MapReduce
3. 《Bigtable: A Distributed Storage System for Structured Data》: 谷歌结构化数据存储系统

由于 Google 有技术解决 Doug Cutting 团队遇到的瓶颈问题, 倒是技术没有开源, 但是 Google 发了文章, Doug Cutting 团队根据这三篇论文生成了 Hadoop 的相关技术, 并开源.

3. Hadoop 现状

HDFS 作为分布式文件存储系统, 处在生态圈的底层核心地位;
YARN 作为分布式通用的集群资源管理系统和任务调度平台, 支撑各种计算引擎运行, 保证了 Hadoop 地位;
MapReduce 作为大数据生态圈第一代分布式计算引擎, 由于自身设计的模型所产生的弊端, 导致企业一线几乎不再直接使用 MapReduce 进行编程处理, 但是很多软件的底层依然在使用 MapReduce 引擎来处理数据.

4. Hadoop 特性优点

  1. 扩容能力: Hadoop 是在可用的计算机集群间分配数据并完成计算任务的, 这些集群可方便灵活的方式扩展到数以千计的节点.
  2. 成本低: Hadoop 集群允许通过部署普通廉价的机器组成集群来处理大数据, 以至于成本很低. 看重的是集群整体能力.
  3. 先率高: 通过并发数据, Hadoop 可以在节点之间动态并行的移动数据, 使得速度非常快.
  4. 可靠性: 能自动维护数据的多份复制, 并且在任务失败后能自动地重新部署计算任务. 所以 Hadoop 的按位存储和处理数据的能力值得人们信赖.
  5. 通用性: Hadoop 是一项技术, 该技术不涉及任何业务内容, 与业务脱节.
  6. 简单: Hadoop 使用起来比较简单.

5. Hadoop 发行版本

发行版本类型来源链接优点缺点
开源社区版Apache 开源社区发行也是官方发行版本https://hadoop.apache.org/更新迭代快兼容稳定性不周
商业发行版商业公司发行基于 Apache 开源协议某些服务需要收费https://www.cloudera.com/稳定兼容好收费版本更新慢

6. Hadoop 架构变迁

Hadoop 1.0

  1. HDFS (分布式文件存储)
  2. MapReduce (资源管理和分布式数据处理)

Hadoop 2.0

  1. HDFS (分布式文件存储)
  2. MapReduce (资源管理和分布式数据处理)
  3. YARN (集群资源管理, 任务调度)

请添加图片描述

主要看一革命性的变化, 就是 1.0 版本到 2.0 版本的变迁, 因为 hadoop 发展到现在, 大概经历了三个大的版本变化, 仔细对比一下发现底层都是 HDFS, 没有什么变化, 说明数据怎么存储的, 没有什么变化.

1.0 到 2.0 最大的变化, 就是对 MR 进行了大的拆分, 并且引入了一个新的组件, 叫做 YARN. 不难发现这个 MapReduce 这个组件太累了, 他除了要做集群的资源管理, 还要做数据的处理, 这一个组件身兼数职, 并且这两件事情都非常的重要, 那他的性能能好吗? 所以到 2.0 版本之后, hadoop 做了一个非常大的构架变化, 就是把 MR 做了拆分, MR 你只负责处理数据就可以了, 资源管理的事情, 交给专门的组件来做, 这个组件就是 YARN, 并且 YARN 这个组件做的非常通用, 不仅支持 MapReduce, 还支持其他的计算框架, 什么 Spark, Flink 等. 目前市面上 1.0 基本上没什么人用了, 但是 2.8、2.9 这些还是有在用.

Hadoop 3.0 架构组件和 Hadoop 2.0 类似, 3.0 着重于性能优化. 比如支持 GPU, 支持多重备份, 并且内部的数据支持动态平衡, 并且存储效率变高了, 采用删码存储等等. 以上就是 hadoop 各个版本之间的一些区别.

7. Hadoop 集群集体概念

Hadoop 集群包括两个集群: HDFS 集群, YARN 集群
两个集群逻辑上分离, 通常物理上在一起
两个集群都是标准的主从架构集群

  1. HDFS 集群 (分布式存储):
    1.1 主角色: NameNode
    1.2 从角色: DataNode
    1.3 主角色辅助角色: SecondaryNameNode
  2. HDFS 集群 (资源管理, 调度):
    2.1 从角色: ResourceManager
    2.2 从角色: NodeManager

请添加图片描述

逻辑上分离: 两个集群互相之间没有依赖, 互不影响
物理上在一起: 某些角色进程往往部署在同一台物理服务器上
关于 MapReduce: MapReduce 是计算框架, 代码层面的组件没有集群之说

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_240801.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot 自动装配原理,一文掌握!|原创

本文详细讲解了 SpringBoot 自动装配原理,可以直接拉到最后看总结。由于 Spring 源码比较复杂,是需要一些基础的。如果有不懂的地方,欢迎提问!点击上方“后端开发技术”,选择“设为星标” ,优质资源及时送达…

【微信小程序项目的基本组成结构】

项目的基本组成结构 ├── app.js # 小程序的逻辑文件 ├── app.json # 小程序的配置文件 ├── app.wxss # 全局公共样式文件 ├── pages # 存放小程序的各个页面 │ ├── index # index页面 │ │ ├── index.js # 页面逻辑 │ │ ├── index.wxml # 页面结构 │…

亿级流量的互联网项目如何快速构建?手把手教你构建思路

一. 大流量的互联网项目 1.项目背景 索尔老师之前负责的一个项目,业务背景是这样的。城市的基础设施建设是每个城市和地区都会涉及到的,如何在基建工地中实现人性化管理,是当前项目的主要诉求。该项目要实现如下目标: 工地工人的…

2022年底了,你们公司还好吗?我这里不太好

以下这些也是和几个朋友聊天的时候慢慢聊出来的,不一定真实啊,当做大家开发累了以后的一点调味剂吧 一、宇宙厂 1.宇宙人员成本优化计划,随着各个业务确认了优化目标,将在接下来陆续开展。 某中台确认了指标,将在“在职…

【蓝桥杯备赛系列 | 简单题】素数判断 字符串输入输出

🤵‍♂️ 个人主页: 计算机魔术师 👨‍💻 作者简介:CSDN内容合伙人,全栈领域优质创作者。 蓝桥杯竞赛专栏 | 简单题系列 (一) 作者: 计算机魔术师 版本: 1.0 &#xff08…

搭建免费内网穿透

1,参考: https://news.cndns.com/ArticlesDetail/articlesdel/id/8654https://news.cndns.com/ArticlesDetail/articlesdel/id/8654 2,搭建Ngrok 官网: https://www.ngrok.cc/https://www.ngrok.cc/ (1&…

[网鼎杯 2020 白虎组]PicDown(任意文件读取)

打开界面发现有一个get传参然后,尝试任意文件读取漏洞,/etc/passwd看一下,提示下载了一个jpg图片然后 打不开只能用 010查看一下信息 看来是猜对了,然后 如果日记没删掉可以查看历史记录 .bash_history呃呃呃差不到,那就看一下现…

【Lilishop商城】No4-3.业务逻辑的代码开发,涉及到:会员B端第三方登录的开发-微信小程序登录接口开发

仅涉及后端,全部目录看顶部专栏,代码、文档、接口路径在: 【Lilishop商城】记录一下B2B2C商城系统学习笔记~_清晨敲代码的博客-CSDN博客 全篇会结合业务介绍重点设计逻辑,其中重点包括接口类、业务类,具体的结合源代码…

第十六讲:神州交换机访问控制列表的配置

访问控制列表ACL(Access Control Lists)数据定义工具,基于用户自行定义的数据的参数区分不同的数据流,是在交换机和路由器上经常采用的一种防火墙技术,它可以对经过网络设备的数据包根据一定规则进行过滤。它有以下一些…

#5文献学习总结--利用多级反馈排队的雾计算框架中的期限和优先级感知任务卸载

文献:DPTO: A Deadline and Priority-aware Task Offloading in Fog Computing Framework Leveraging Multi-level Feedback Queueing 延迟相关优先级感知卸载(DPTO)策略,基于任务的最后期限为每个任务分配优先级,并将…

C#,图像二值化(06)——全局阈值的大津OTSU算法及其源代码

1、大津OTSU算法 最大类间方差法是1979年由日本学者大津(Nobuyuki Otsu)提出的,是一种自适应阈值确定的方法,又叫大津法,简称OTSU,是一种基于全局的二值化算法,它是根据图像的灰度特性,将图像分为前景和背景两个部分。…

rocketmq 实战问题汇总

rocketmq 实战过程会遇到这样或者那样的问题,今天我们专门抽出一篇文章来分析一下汇总一下,避免以后踩同样的坑: 1、找不到JDK的问题: 综合分析,是因为JDK安装的目录有空格导致的:Program Files 两个单词之…

YOLO-V5 系列算法和代码解析(三)—— 训练数据加载

文章目录调试准备Debug 设置代码修改调试数据代码运行逻辑类初始化启动迭代器数据增强调试准备 为了便于阅读代码和打印中间变量,需进行调试模式下运行代码。配置平台:Ubuntu,VSCode。在上一篇博文中,我们简单探讨过调试的设置。在…

JavaScript手写响应式原理(详解)

响应式原理 首先我们有一个对象 const obj {name: zlk,age: 18}这个对象可能在别处被用到 比如是这样的 function foo() {const newValue obj.nameconsole.log(hello world);console.log(obj.name);}我们来改变obj对象中的name的值 obj.name zlk这时候foo()应该被重新执…

一文读懂bert结构。

最近承接了项目要复现tiny_Bert。所以在这里用文章记录自己学到的。这篇文章是前置,主要介绍bert原理。 下一篇文章介绍tinybert的原理和训练 模型介绍: BERT概述: 如果要介绍tinyBERT,首先我们需要了解BERT模型。(了…

原神私服搭建教程 (最新版)

搭建教程 1.准备阶段 1.请先确保电脑内有这些安装环境,否则私服无法运行!!! MongoDB Python3.8 java17 mitmproxy 没有请在群文件下载安装环境,安装即可。特别强调:java17直接放在C:\Program Files目录下即…

【Java编程进阶】方法初识

推荐学习专栏:Java 编程进阶之路【从入门到精通】 文章目录1. Java 方法初识2. 方法的创建与使用3. 方法的分类3.1 无参无返回值3.2 无参带返回值3.3 有参无返回值3.4 有参带返回值4. 递归方法5. 总结1. Java 方法初识 方法是组合在一起来执行操作语句的集合&#…

一体式无线阀控超声水表在西北某市大用户用水计量收费管理项目应用案例

多年来,西北某市的工业园区供水公司对工业企业用户的用水收费一直采取业务员手动抄表、上门收费的方式。不仅效率低、浪费人力资源,而且供水公司很难掌握地区用水情况,不便于统一调度和管理。 为此,该工业园区安装了平升电子一体…

2023年无线运动耳机排行榜最新公布、公认最好的运动耳机推荐

随着人们日益对健康的重视,”全民健身“正在全国,乃至全世界蔓延开来,其中跑步锻炼凭借着门槛低,益处多成为了大部分人的健身的首选。而随着跑步大军的壮大,国内蓝牙耳机市场也是一片火热。其中蓝牙无线运动耳机凭借着…

拆串后结构化,其中按行对齐

【问题】 I have a bit weired scenario where i need to fetch data i have following three products product1 product2 product3and each product has different ids(e.g. p1345,p3453,p2345) and then each froduct have different options which are having different…