kafka和flink的入门到精通 1 大数据时代,分布式数据存储,数仓

news/2024/4/29 10:15:54/文章来源:https://blog.csdn.net/qq_45956730/article/details/126934838

参考006 - 大数据 - 系统架构 - 总览_哔哩哔哩_bilibili

目录

 一、大数据时代

 ◼  信息化浪潮

 ◼  技术支撑

 ◼  三阶段

 ◼  大数据的发展历程

二、大数据概述

 ◼  大数据

特点:

 ◼  大数据部门组织

三、分布式数据存储

◼  单点数据存储

◼  主从架构模式

◼  数据存储

四、数仓

 ◼  数仓命名规范

 ◼  数仓建模

➢ 关系建模

➢ 维度建模


Spark课程实验案例:Spark+Kafka构建实时分析Dashboard(免费共享)_厦门大学数据库实验室

 一、大数据时代

 ◼  信息化浪潮

 1995年,以互联网的普及为标志迎来第二次信息化浪潮。

 ◼  技术支撑

1.存储设备容量的不断增加使得个人数据越来越多,有相片、文档、视频、音乐;也使得企业的数据越来越多。

而且目前的存储技术,使得存储空间的增加,又会导致我们数据量不断增加。同样的,我有足够空间的话,就可以一直存储,不用删除。

 2.2005年开始, 摩尔定律已经开始失效了。但是CPU又出现了双核,多核,性能还是在不断的提升,对数据的处理能力也在不能提升。

 3.同时,网络代理也在不断的增加,

 那么这些技术支撑还不足以迎来大数据时代的到来,一个非常重要的因素是数据产生方式的变革。

 ◼  三阶段

 

第一阶段:运营式系统阶段

 

2000年附近,第二阶段:用户原创内容阶段。包括:微博,博客,让每个网民都成为自媒体,这时数据产生的速度要远远大于之前的第一阶段,因为每个网民都成为了数据发布的主体。

那么这些还是不足以真正让大数据时代到来。

真正让大数据时代到来,是因为第三阶段:感知式系统阶段,也就是物联网的大规模普及。因为物联网的最底层是感知层,比如RFID,摄像头,传感器等等这些设备,每时每刻都在不断发布数据。有了这些物联网设备的存在,才使得数据产生的方式超出了人的控制。

 

 ◼  大数据的发展历程

 

二、大数据概述

数据量大,意味着每两年就会增长一倍,而且最近两年产生的数据量之和就相当于我们人类之前产生的所有数据量之和。

 

 并且,预计到2020年,全球将总共拥有35ZB的数据量,相比于2010年,数据量将增长近30倍。

 ◼  大数据

大数据主要解决海里数据采集,存储,分析和计算的问题。

特点:

  • 海量:数据存储单位有bit,byte,KB,MB,GB,TB,PB,EB,ZB,YB,BB,NB,DB;
  • .高速:处理速度快;
  • 多样:结构化数据和非结构化数据两大类;
  • 低价值密度:传统数据基本都是结构化数据,每个字段都是有用的,价值密度非常高。大数据时代,越来越多的都是非结构化和半结构化数据,比如网站访问日志,里面大量内容都是无用的,真正有价值的比较少,虽然数据量比以前大了N倍,但是价值密度确实低了很多。

 ◼  大数据部门组织

 大数据业务流程分析:

三、分布式数据存储

◼  单点数据存储

存在问题:

  • 所有应用都在单点上,共享资源,会导致资源不足;
  • 所有请求都会访问单点,会导致性能下降;

因此,最开始的解决思路:分离和解耦代码。

 存在问题:

  • 每个应用都放在单点上,如果单点出现错误,则存在单点故障;

所以,单点数据存储已经不符合我们的数据存储了。

提供一个基本的思路,几种解决方案:

  • 水平切分数据库;
  • 读写分离;
  • 多台机器形成集群,通过负载均衡降低单点的访问负载;

 

◼  主从架构模式

大数据中比较经典的架构模式:主从。

master的功能:

  • 存储集群的节点信息和状态;
    • 集群之后,如果发现当前的性能不行,就需要扩容,把集群扩大,使得伸缩性更好一些。
  • 监听节点信息和磁盘状态;
  • 元数据信息,调度读写请求;

◼  数据存储

从环境来讲,需要一个做“主”,一个做“从”。

1.假设我们现在写文件数据时,每一个文件都写还是写一个?

每个节点都写的话,首先数据冗余,浪费空间。但是如果其中一个节点故障,还能继续用,可靠性好。而且读数据的请求可以访问任意节点,增强访问。如果只写一个节点,一旦故障则无法使用。

但是我又不想每个节点都写,两者合二为一,可以让数据均匀分布在不同节点,统一来提供服务。

那么就,分布式数据存储,数据存储节点一般是要让数据均匀分布在不同节点,并且数据节点进行备份,增强可靠性。

2.现在,如果要存储,那么我们怎么知道把数据存储在了哪个节点?数据是往“主”存储,还是“从”?------->基本数据存储依靠节点路由操作

很多软件中都有这个概念,比如Redis,如果要存储“abc”,有3个机器,通过计算来算出应该存储在哪个机器上,能够让我们的数据均匀的放在不同的机器当中。

3.假如把数据给了“主”之后,那么后续,备份怎么办?备份数据谁来写?

用户把数据写入蓝色文档中,两个黄色文档是用来备份的。 那么新的备份数据应该写在哪个黄色文档中?

 数据备份分两种情况:

  • 所有的数据都是相同级别,统一写;
  • 主从关系:将数据写入到其中一个主节点,由这个节点写入到其他备份节点;

那么,分布式设计存储从系统的架构设计上,要考虑到我们数据存储的架构模式,又要考虑集群本身的架构模式。

  • 有无中心管理节点-----主要针对集群的环境;
  • 存储节点是否有主从之分-----说的是数据存储的节点是否有主节点和从节点;

从系统的架构设计上,从性能的角度来看,master不会成为系统的瓶颈,比较现在服务器处理的性能是很高的。

4.master不会成为系统的瓶颈,所以瓶颈在哪呢?

其实瓶颈对于当前来讲,在于主从节点。

假如现在有一个主节点,2个从节点(备份节点)。写入主节点和主节点写出到从节点的流量不一样,这样的话,性能就会成为系统的瓶颈。那么我们需要考虑到这种问题,等到kafka的时候再说。

虽然只有一个master,但是master突然宕机是有可能的。那么我要考虑高可用的话,就需要多节点的master。

 

四、数仓

数据仓库和其他数据集合,数据库的区别,主要在于数据模型的建立和使用。

数据仓库需要将数据按照不同的层次进行划分,给不同的部门使用,实现不同的需求。

每个企业对数仓的分层没有固定的标准,有的分为4层,有的分为5层。

 ◼  数仓命名规范

表命名:

  • ODS层:ods_表名
  • DWD层:dwd_dim/fact_表名
  • DWS层:dws_表名
  • DWT层:dwt_表名
  • ADS层:ads_表名
  • 临时表:xxx_temp

 

 ◼  数仓建模

➢ 关系建模

➢ 维度建模

维度:分析事物的指标。

比如空间模型,维度就是指一维空间(用长度的指标来形容线),二维空间(用长度和宽度的指标来形容面),三维空间(用长度、宽度和高度的指标来形容)等等。

维度表:将相关的分析指标用一张表来表示。

 比如订单包括时间:哪年哪月哪天(Y-M-D),但是如果我想知道是哪周,就不能从中得知,那么我在做统计该年第一季度的订单总数,就很困难了。

------>时间维度表:第几周第几季度

 


在维度建模的基础上又分为三类:

 

 

事实表:用来记录历史信息,可以报错大量的业务度量数据。

比如我今天买了一双鞋,明天也买了一双鞋,后天买了一双鞋。但是我买的这双鞋的颜色,型号是什么?男款/女款?花了多少钱?这就属于维度了。

所以真正在处理数据的时候,维度表和事实表是结合在一起使用的。

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_10307.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

知物由学 | AI与黑产的攻守之道,详解攻击类文字图像的检测

导读:随着 OCR 系统识别能力的提升,专业对抗 OCR 的黑产也越来越多,这个过程中 AI 如何抵御黑产攻击类的文字图像?本文通过分享相似性特征训练的常见算法,并选择了其中一些有代表性的工作进行介绍,希望能给…

数据库干货 | 防止重复记录的发生

许多数据库管理员(DBA)需要至少花费一段时间来尝试从数据库表中识别和删除重复记录。如果一开始多注意防止重复插入,那么识别和删除重复记录所花费的大部分时间都可以用于其他工作上。原则上,这并不难做到。但是,实际上…

Windows环境下Hadoop的安装和配置

Windows环境下Hadoop的安装和配置Windows环境下Hadoop的安装和配置平台及版本安装 Java1.8,并配置环境变量安装Hadoop2.7.3Hadoop核心配置文件启动Hadoop服务Windows环境下Hadoop的安装和配置 平台及版本 Windows10JDK1.8.0_192Hadoop2.7.3 安装 Java1.8&#xf…

Java Math

本博客具体总结了java中的api Math中部分函数使用方法: 取绝对值 Modifier and TypeMethod and Descriptionstatic doubleabs(double a) 返回一个 double值的绝对值。static floatabs(float a) 返回一个 float值的绝对值。static intabs(int a) 返回一个值的绝对值…

卜算法学习笔记-02-分而治之算法02

数组中的逆序对计数 算法分析 所谓逆序对&#xff0c;是指数组中的两个元素 A[i]A[i]A[i] 和 A[j]A[j]A[j]&#xff0c;其下标 i<ji < ji<j&#xff0c;但是考察元素的值&#xff0c;却有 A[i]>A[j]A[i] > A[j]A[i]>A[j]。 输入&#xff1a;一个包含 nnn 个…

vue项目实战-完成路由组件的搭建

vue项目实战-完成路由组件的搭建 1.安装vue-router npm i vue-router --save分析结构可知&#xff0c;路由组件有四个&#xff1a;Home、Search、Login、Register 2.创建路由组件文件夹pages以及各路由组件 3.配置路由 项目中配置路由一般配置在router文件夹中&#xff0c;…

工业智能网关BL110应用之八十一: 实现西门子S7-400 PLC 接入亚马逊云平台

LAN 接口的配置COM口采集西门子S7-400 PLC的配置 工业智能网关BL110一共有一 个LAN 接口&#xff0c;一个WAN接口&#xff0c;可以通过LAN 接口采集数据&#xff0c;通过WAN接口接入局域网&#xff0c;设置过程不一样&#xff0c;WAN接口可以自动获取IP以及相关以太网设置。 …

硅光电子器件模拟:“RSoft光电器件设计仿真技术与应用”

RSoft光子器件工具包括业界最广泛的模拟器和优化器&#xff0c;一款非常优秀的设计仿真软件&#xff0c;能够帮助用户轻松的设计光学元件、纳米级光学结构&#xff0c;同时也可以模拟无源或有源的光电子器等。RSoft具有高度精确的算法能快速建立虚拟样机&#xff0c;同时降低了…

FPGA 20个例程篇:15.VGA显示八种颜色的彩条

第六章 图像显示处理&#xff0c;经典再现 15.VGA显示八种颜色的彩条 图像和视频处理可以说是FPGA中又一个经典地应用&#xff0c;使用FPGA做图像处理最核心的优势就在于&#xff1a;FPGA能进行实时流水线运算&#xff0c;从而达到更高的实时性&#xff0c;围绕着图像处理又有…

【VUE】process.env,require,vite.config.js等问题的解决

一、简介 这个系列是想将自己做过的Cesium项目整理回顾&#xff0c;同时也希望能给看到的文章的朋友一点帮助。大部分内容规划都是简单的功能应用&#xff0c;后面可能会选我自己感兴趣的功能做分享。 本文主要介绍工程的技术选型&#xff0c;环境搭建和代码的简单实现。首先…

Spring Security(一)- SpringSecurity 框架简介

文章目录一、SpringSecurity 框架简介1. 概要2. Spring Security 与 Shiro 对比2.1 Spring Security2.2 SpringSecurity特点2.3 Shiro2.4 Shiro特点2.5 小结3. SpringSecurity项目模块和依赖二、SpringSecurity 入门案例1. 添加相关依赖2. 运行项目3. 权限管理中的相关概念&…

大字节数组和 MemoryStream 的替代方案

发表于2019 年 12 月 9 日 在 .NET 中,处理二进制数据时通常使用字节数组;例如,在方法之间传递文件的内容、编码/解码文本、从套接字读取数据等。这些数组可能会变得非常大(最大为兆字节),OutOfMemoryException如果运行时无法运行,最终可能会导致被抛出分配足够大的内存…

redis数据结构基本语法

Redis Study 学到技巧 快捷键 ctrl [ typora很好用&#xff0c;有个问题就是换行会自动跟上面的格式&#xff0c;按删除键也无效 ctrl [就会把前面的格式给稀释掉。 经验 有关typora上传博客园图片缩放的问题,办法就是在typora中粘贴图片以后发现缩放没有效果&#xf…

Windows中使用SMB共享文件夹

SMB共享文件夹 简单步骤:打开【控制面板】 打开【启动或关闭windows功能】 打开【SMB1.0/CIFS 文件共享支持】 重启电脑 到磁盘中选择需要共享的文件夹 选中文件夹【属性】-> 【共享】->【共享】->添加【Everyone】用户 -> 权限【读取/写入】->确定共享 打开【…

那么我们应该如何优化Youtube的视频呢?

除了ins&#xff0c;Facebook&#xff0c;Twitter这类日常发帖分享型的社交网站外&#xff0c;还有其他的视频类网站也可以用于跨境电商的营销推广。作为视频类的社媒网站&#xff0c;YouTube可以说是全球第一大视频类社媒营销网站&#xff0c;在拓展视频内容的同时&#xff0c…

第3章 Kafka架构深入

3.1 Kafka工作流程及文件存储机制 Kafka中消息是以topic进行分类的&#xff0c;生产者生产消息&#xff0c;消费者消费消息&#xff0c;都是面向topic的。 topic是逻辑上的概念&#xff0c;而partition是物理上的概念&#xff0c;每个partition对应于一个log文件&#xff0c;该…

java线程池

目录 一、浅谈对线程池的理解 二、线程池常用类和接口 三、线程池的核心参数 四、线程池的状态 五、线程池的执行流程 六、常见的线程池 FixedThreadPool&#xff1a;线程数固定的线程池 CachedThreadPool&#xff1a;可缓存线程池&#xff0c;线程数根据任务动态调整的…

肯德尔(Kendall)相关系数概述及计算例

目录 1. 何谓相关&#xff08;correlation&#xff09;? 2. 肯德尔相关 3. 肯德尔相关的假设 4. 计算公式及代码示例 4.1 Tau-a 4.2 Tau-b 1. 何谓相关&#xff08;correlation&#xff09;? 相关是指一种双变量分析&#xff08;bi-variate analysis&#xff…

不知道数字化转型有什么意义?实现数字化转型价值都有哪些路径

近些年来&#xff0c;随着人工智能、云计算、大数据、物联网、区块链等新一代前沿技术的普及应用&#xff0c;社会的方方面面都有了信息化、数字化的身影&#xff0c;并通过相关技术、理念、应用创造了从未体验过的数字化社会&#xff0c;对整个社会形式进行了一次深层次的转型…

JVM原理及优化_垃圾回收器

文章目录JVM原理及调优_垃圾回收器什么是垃圾收集器&#xff1f;垃圾回收器详解SerialParNewParallel ScavengeSerial OldParallnel oldCMSG1JVM原理及调优_垃圾回收器 什么是垃圾收集器&#xff1f; 垃圾收集器是垃圾回收算法&#xff08;引用计数法、标记清除法、标记整理法…