Doris最全使用手册

news/2024/5/7 4:29:42/文章来源:https://blog.csdn.net/yezonghui/article/details/126906713

目录

一:doris基础介绍

1.1 doris介绍

1.1.1 定义

1.1.2 具体的业务场景包括

1.1.3 Doris关键特性

二:Doris与其它数据库比较

三:底层索引与读写流程

3.1 Doris整体架构

3.2 Doris存储设计目标

四:数据划分(分区、分桶)

4.1 分区&分桶&表

4.2 分区分桶使用

4.3 partition和bucket的数量和数据量的建议

4.4 复合分区与单分区

五:数据模型特性与选择

六:上卷

6.1 基本概念

6.2 rollup使用说明

七:索引

7.1 前缀索引

7.2 bloomfilter索引

7.3 bitmap索引


一:doris基础介绍

1.1 doris介绍

1.1.1 定义

doris是一个基于mmp(massively parallel processing,即大规模并行处理)的交互式sql数据仓库,是一个面向多种数据分析场景的、兼容mysql协议的、高性能的、分布式关系型列式数据库,用于报告和分析。

1.1.2 具体的业务场景包括

  • 数据仓库建设

  • olap分析

  • 用户行为分析

  • 系统监控分析

1.1.3 Doris关键特性

  • 支持mysql协议

  • 按key排序

  • 在线表结构变更

  • 两层分区。分区:range partition; 分桶 hash bucket

  • mpp查询引擎:基于impala

  • 列式存储:按列存储,高压缩比,多种索引

  • 高基数精准去重

  • 元数据全内存访问,快速访问

  • 高度内聚,不依赖第三方系统

二:Doris与其它数据库比较

特征

Hadoop

MPPDB

传统数据库

扩展能力

中(通过Hash计算数据行的物理机器,存储位置不透明
⚠️并行:数据通过Hash存储,但是任务没有,无论大小会在每个节点走一圈)

系统和系统管理成本

中(数据切分了,但是文件数没有变少,每个表在每个节点上一定有一到多个文件。同样节点数越多,存储的表就越多,导致每个文件系统上有上万甚至十万多个文件)

应用开发维护成本

中(只设置 FE(Frontend)、BE(Backend)两种角色、两个进程,不依赖于外部组件,方便部署和运维。)

SQL支持

高。在使用接口方面,Doris采用mysql协议,高度兼容mysql语法,支持标准sql。

数据规模

PB级别

准PB级别

TB级别

计算性能

对非关系型操作效率高

对关系型操作效率高

对关系型操作效率高

数据结构

结构化、半结构化和非结构化数据

结构化数据

结构化数据

特征总结

Hadoop在处理非结构化和半结构化数据上具备优势,尤其适合海量数据批处理等应用要求

MPP适合替代现有关系数据机构下的大数据处理,具有较高的效率。

Doris采用列式存储,按列进行数据的编码压缩和读取,能够实现极高的压缩比,同时减少大量非相关数据的扫描,从而更加有效利用io和cpu资源。

-

应用场景

Hadoop适合海量数据存储查询、批量数据ETL、非机构化数据分析(日志分析、文本分析)等。

适合多维度数据自助分析、数据集市等

-

三:底层索引与读写流程

3.1 Doris整体架构

  • Frontend(FE),主要负责用户请求的接入、查询解析规划、元数据的管理、节点管理相关工作。

  • Backend(BE),主要负责数据存储、查询计划的执行

 

3.2 Doris存储设计目标

支持大数据量的分布式数据管理

支持事务

  • 两阶段提交

  • 数据多版本管理

对分析型友好

  • 灵活的数据模型:aggregate、uniq、duplicate

  • 高效的查询:列式存储、索引设计、预聚合rollupp

  • 大批量的写入:索引&compation机制

高吞吐

四:数据划分(分区、分桶)

4.1 分区&分桶&表

在 Doris 的存储引擎中,用户数据被水平划分为若干个数据分片(Tablet,也称作数据分桶)。每个 Tablet 包含若干数据行。各个 Tablet 之间的数据没有交集,并且在物理上是独立存储的

多个 Tablet 在逻辑上归属于不同的分区(Partition)。一个 Tablet 只属于一个 Partition。而一个 Partition 包含若干个 Tablet。因为 Tablet 在物理上是独立存储的,所以可以视为 Partition 在物理上也是独立。Tablet 是数据移动、复制等操作的最小物理存储单元

若干个 Partition 组成一个 Table。Partition 可以视为是逻辑上最小的管理单元。数据的导入与删除,都可以或仅能针对一个 Partition 进行。

注意:一定要设置分桶,可以不设置分区;换句话说必须要有分桶

4.2 分区分桶使用

Doris支持两层的数据划分。第一层是partition ,支持range和list的划分方式;第二层是bucket(tablet),仅支持hash的划分方式。也可以仅仅使用一层分区,使用一层分区的时候,仅仅支持bucket划分。

1.partition

  • partition列可以指定一列或者多列,分区列必须为key列。另外还有多列分区的使用方式。

  • 不论分区是什么类型,在写分区值时,都要加双引号。

  • 分区数量理论没有上限。

  • 当不使用partition by建表的时候,系统会自动生成一个和表名同名的,全值范围的partition,该partition对用户不可见,并且不可修改。

  • 创建分区的时候不可叠加范围重叠的分区。

2.range分区

  • 分区列通常为时间列,以方便管理新旧数据;

  • Partition 支持通过 VALUES LESS THAN (...) 仅指定上界,系统会将前一个分区的上界作为该分区的下界,生成一个左闭右开的区间。同时,也支持通过 VALUES [...) 指定上下界,生成一个左闭右开的区间。

  • 分区的删除不会改变已存在分区的范围。删除分区可能出现空洞。通过 VALUES LESS THAN 语句增加分区时,分区的下界紧接上一个分区的上界。

  • Range分区除了上述我们看到的单列分区,也支持多列分区,例如指定 date(DATE 类型) 和 id(INT 类型) 作为分区列。

3.list分区

  • 分区列支持 BOOLEAN, TINYINT, SMALLINT, INT, BIGINT, LARGEINT, DATE, DATETIME, CHAR, VARCHAR 数据类型,分区值为枚举值。只有当数据为目标分区枚举值其中之一时,才可以命中分区。

  • List分区也支持多列分区

4.bucket

  • 如果使用了partition,则distributed ... 语句描述的是数据在各个分区内的划分规则,如果不使用partition ,则描述的是对整个表的数据的划分规则。

  • 分桶列可以是多列,但必须为key列,分桶列可以和partition列相同或者不同。

  • 分桶列的选择,是在 查询吞吐查询并发 之间的一种权衡:

    • 如果选择多个分桶列,则数据分布更均匀。如果一个查询条件不包含所有分桶列的等值条件,那么该查询会触发所有分桶同时扫描,这样查询的吞吐会增加,单个查询的延迟随之降低。这个方式适合大吞吐低并发的查询场景。

    • 如果仅选择一个或少数分桶列,则对应的点查询可以仅触发一个分桶扫描。此时,当多个点查询并发时,这些查询有较大的概率分别触发不同的分桶扫描,各个查询之间的IO影响较小(尤其当不同桶分布在不同磁盘上时),所以这种方式适合高并发的点查询场景。

补充:吞吐量的定义:指对网络、设备、端口、虚电路或者其它设施,单位时间内成功地传送数据的数量。

4.3 partition和bucket的数量和数据量的建议

  • 一个表的tablet总数量等于(partition num * bucket num)。

  • 一个表的tablet数量,在不考虑扩容的情况下,推荐稍多于整个集群的磁盘数量。

  • 单个tablet的数据量理论上没有上下界,但建议在1G--10G的范围内,如果单个tablet数据量过小,则数据的聚合效果不佳,且原数据管理压力大。如果数据量过大,则不利于副本的迁移、补齐,且会增加schema change或者rollup操作失败重试的代价(这些操作失败重试的粒度是tablet)。

  • 当tablet的数据量原则和数量原则冲突的时候,建议优先考虑数据量原则。

  • 在建表时,每个分区的 Bucket 数量统一指定。但是在动态增加分区时(ADD PARTITION),可以单独指定新分区的 Bucket 数量。可以利用这个功能方便的应对数据缩小或膨胀。

  • 一个partition的Bucket数量一旦指定,不可更改。所以在确定Bucket数量时,需要预先考虑集群扩容的情况。比如当前只有 3 台 host,每台 host 有 1 块盘。如果 Bucket 的数量只设置为 3 或更小,那么后期即使再增加机器,也不能提高并发度。

4.4 复合分区与单分区

复合分区

  • 第一级称为 Partition,即分区。用户可以指定某一维度列作为分区列(当前只支持整型和时间类型的列),并指定每个分区的取值范围。

  • 第二级称为 Distribution,即分桶。用户可以指定一个或多个维度列以及桶数对数据进行 HASH 分布。

以下场景推荐使用复合分区

  • 有时间维度或类似带有有序值的维度,可以以这类维度列作为分区列。分区粒度可以根据导入频次、分区数据量等进行评估。

  • 历史数据删除需求:如有删除历史数据的需求(比如仅保留最近N 天的数据)。使用复合分区,可以通过删除历史分区来达到目的。也可以通过在指定分区内发送 DELETE 语句进行数据删除。

  • 解决数据倾斜问题:每个分区可以单独指定分桶数量。如按天分区,当每天的数据量差异很大时,可以通过指定分区的分桶数,合理划分不同分区的数据,分桶列建议选择区分度大的列。

用户也可以不使用复合分区,即使用单分区。则数据只做 HASH 分布

五:数据模型特性与选择

三种模型介绍与对比选择

注意:数据模型的选择建议(因为数据模型在建表的时候就已经确定,且无法修改,所以选择一个合适的数据模型非常重要)

aggregate模型

uniq模型

duplicate模型

通过预聚合,极大地降低聚合查询时所需扫描的数据量和查询的计算量,非常适合有固定模式的报表类查询场景。

目前有四种聚合方式:

  • sum:求和,多行的value进行累加。

  • replace:替代,下一批数据中的value会替换之前导入过的行中的value。

  • max:保留最大值。

  • min:保留最小值。

在某些多维分析场景下,用户更关注的是如何保证 Key 的唯一性,即如何获得 Primary Key 唯一性约束。

在某些多维分析场景下,数据既没有主键,也没有聚合需求。引入 Duplicate 数据模型来满足这类需求

不受聚合模型的约束,可以发挥列模型的优势。

该模型对count()查询很不友好

扩展1(原理解释):在其它数据库中,类似于count(*)都会很快的返回结果,因为在实现上有方法1和方法2两种:

  1. 可以通过如“导入时对其进行计数”,来保存count的统计信息

  2. 查询时仅扫描某一列数据,获得count()值的方式,只需要很小的开销,即可获得查询结果。

  3. Doris:在doris中,必须扫描所有的的aggregate key列,并且聚合后,才能获得正确的语义结果,当聚合列非常多时,count(*)需要扫描大量的数据。(可以看到上面的方法1、方法2都得不到正确结果)

扩展2(解决方案):当业务上有count(*)的需求时候(例如表粒度是干预ID,要求干预总数这种),建议用户增加一个值恒为1(/0)的一列,然后使用聚合类型为sum的列来模拟count(*).

  1. 前提条件:用户需要自行保证,不会重复导入aggregate key列都相同的行(换句话说,每一行粒度要保证,要有主键)。

  2. 增加一个cnt列(值恒为1),则select count(*) from table的结果等价于select sum(cnt) from table,而后者的查询效率将远高于前者。

  3. 当不满足前提条件的时候,select sum(cnt)只能表述原始导入的行数,而不是select count(*) from table。

1)无法利用rollup等预聚合带来的查询优势(因为本质是replace,没有sum这种聚合方式)

2)同左侧count()的缺点,解决方案也相同,因为uniq视作聚合模型的replace,但是此时就没有前提条件了,也就是说select sum(cnt)的结果一直等于select count(*) from table,即没有导入重复行的限制!

1)这种数据模型区别于 Aggregate 和 Unique 模型。数据完全按照导入文件中的数据进行存储,不会有任何聚合。即使两行数据完全相同,也都会保留

2)Duplicate 模型没有聚合模型的这个局限性。因为该模型不涉及聚合语意,在做 count(*) 查询时,任意选择一列查询,即可得到语意正确的结果。(优点)

  • 一般而言,Doris中最终只会存储聚合后的数据,换句话说,即明细数据会丢失,用户不能够再查询聚合前的明细数据了。

  • 当保证导入的数据中,每一行的 Key 都不完全相同,那么即使在聚合模型下,Doris 也可以保存完整的明细数据

uniq模型本质上上聚合模型的一个特例。完全可以使用聚合模型中的replace方式替代,其内部的实现方式和数据存储方式也完全一样

六:上卷

6.1 基本概念

  • rollup在多维分析中是“上卷”的意思,即将数据按照某种指定的粒度进行进一步聚合。

  • 在Doris中,我们将用户通过建表语句创建出来的表称为base表(base table)。base表中保存中按用户建表语句指定的方式存储的基础数据。

  • 在base表之上,我们可以创建任意多个rollup表,这些rollup的数据是基于base表产生的,并且在物理上是独立存储的。

  • rollup表的基本作用:在于base表的基础上,获得更粗粒度的聚合数据。

6.2 rollup使用说明

  • rollup最根本的作用是提高某些查询的查询效率(无论是通过聚合来减少数据量,还是修改列以匹配前缀索引)。因此rollup的含义已经超出了“上卷”的范围。这也是为什么我们在源代码中,将其命名为materialized index(物化索引)的原因。

  • rollup是附属base表的,可以看作是base表的一种辅助数据结构。用户可以在base表的基础上,创建或者删除rollup,但是不能在查询中显式的指定查询某rollup,是否命中rollup完全由doris系统自动决定

  • rollup的数据是独立物理存储的,因此创建的rollup越多,占用的磁盘空间也就越大。同时对导入速度也会有影响(导入的etl阶段会自动产生所有的rollup的数据),但是并不会降低查询效率(只会更好)。

  • ROLLUP 的数据更新与 Base 表是完全同步的。用户无需关心这个问题。

  • ROLLUP 中列的聚合方式,与 Base 表完全相同。在创建 ROLLUP 无需指定,也不能修改。

  • 查询能否命中 ROLLUP 的一个必要条件(非充分条件)是,查询所涉及的所有列(包括 select list 和 where 中的查询条件列等)都存在于该 ROLLUP 的列中。否则,查询只能命中 Base 表。

  • 某些类型的的查询,例如count(*)在任何条件下,都无法命中rollup。

七:索引

目前Doris主要支持两类索引:内建的智能索引,包括前缀索引和zonemap索引。用户创建的二级索引,包括bloom filter索引和bitmap倒排索引。其中 ZoneMap 索引是在列存格式上,对每一列自动维护的索引信息,包括 Min/Max,Null 值个数等等。这种索引对用户透明。

7.1 前缀索引

  • 不同于传统的数据库设计,Doris 不支持在任意列上创建索引。Doris 这类 MPP 架构的 OLAP 数据库,通常都是通过提高并发,来处理大量数据的。

  • 本质上,Doris 的数据存储在类似 SSTable(Sorted String Table)的数据结构中。该结构是一种有序的数据结构,可以按照指定的列进行排序存储。在这种数据结构上,以排序列作为条件进行查找,会非常的高效。

  • 在 Aggregate、Unique 和 Duplicate 三种数据模型中。底层的数据存储,是按照各自建表语句中,AGGREGATE KEY、UNIQUE KEY 和 DUPLICATE KEY 中指定的列进行排序存储的。

  • 而前缀索引,即在排序的基础上,实现的一种根据给定前缀列,快速查询数据的索引方式

1)如何通过索引优化

创建表时:

在创建Doris表的时候,在字段配置处,可以通过调整字段先后的顺序,来达到提高索引命中的目的

rollup:

通过rollup来调整字段先后顺序,来达到加快查询效率。

补充:因为建表时已经指定了列顺序,所以一个表只有一种前缀索引。这对于使用其他不能命中前缀索引的列作为条件进行的查询来说,效率上可能无法满足需求。因此,我们可以通过创建rollup来人为的调整列的顺序。

2)索引优化的依据:

Doris将一行数据的前 32 个字节 作为这行数据的前缀索引。当遇到 VARCHAR 类型时,前缀索引会直接截断;

{prediction_col} 中尽可能避免VARCHAR类型,如果存在VARCHAR类型,请尽量放在后面。

7.2 bloomfilter索引

1

7.3 bitmap索引

用户可以通过创建bitmap index加速查询,本文档主要介绍如何创建index作业,以及创建index的一些注意事项和常见问题。

定义:bitmap index:位图索引,是一种快速数据结构,能够加快查询速度,

原理介绍:创建和删除本质上是一个schema change的作业。

注意事项

  • 目前索引仅支持bitmp类型的索引。

  • bitmap索引仅支持在单列上创建。

  • bitmap索引能够应用在duplicate、uniq数据模型的所有列和aggregate模型的key列上

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_9388.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端笔试题记录(二)-代码输出题

1.将数组中的子对象加入到对应的父对象中,也就是parent_id为id 的,就将其加入进去。 function listToTree(list) {let map {};list.forEach(item > {if (!map[item.id]) {map[item.id] item;}});list.forEach(item > {if (item.parent_id ! 0) …

java基于SpringBoot+Vued的小区物业管理系统 elementui 前后端分离

系统管理也都将通过计算机进行整体智能化操作,对于小区物业管理系统所牵扯的管理及数据保存都是非常多的,例如管理员:首页、个人中心、用户管理、员工管理、业主信息管理、费用信息管理、楼房信息管理、报修信息管理、车位信息管理、停车信息管理、投诉编号管理、公…

C++实现一个线程池

一、为什么使用线程池 大家都知道C支持多线程开发,也就是支持多个任务并行运行,我们也知道线程的生命周期中包括创建、就绪、运行、阻塞、销毁等阶段,所以如果要执行的任务很多,每个任务都需要一个线程的话,那么频繁的…

在 WebKit(Safari) 中执行 Cypress 测试用例

在 WebKit(Safari) 中执行 Cypress 测试用例这篇博客介绍了我们如何在 WebKit(Safari) 中执行 Cypress 测试用例 在 ** 版本 10.8.0** ** ,** cypress 团队引入了对 WebKit(Safari) 浏览器的支持 赛普拉斯有 实验 支持 Safari 的浏览器引擎 WebKit。使用 WebKit 测试您的应用程…

面试操作系统 - 第 1 部分

面试操作系统 - 第 1 部分 从来没有在课堂上或非 CS 部门认真对待过 OS 科目(比如我)。不用担心,我支持你!You after reading the article 在这一系列文章中,我将尝试提供尽可能多的相关内容以及操作系统面试中需要的内容,但尽可能使质量达到最佳。 注意:- 本文的某些部…

介绍 Preact Signals

1. 什么是 Signals? Signals 是用来处理状态的一种方式,它参考自 SolidJS,吸收了其大部分的优点。无论应用多么复杂,它都能保证快速响应。 Signals 的独特之处在于状态更改会以最有效的方式来自动更新组件和 UI。 Signals 基于自动状态绑定和依赖跟踪提供了出色的工效,并具…

手写RPC框架Feign

Feign原理实现手写RPC框架Feign什么是RPCFeign注入原理EnableFeignClientsFeign调用入口手写Feign手写RPC框架Feign 阅读本文你可获得: 1、RPC原理 2、feign注入原理 3、如何手写feign框架 4、动态代码设计模式应用场景 什么是RPC RPC:远程过程调用&…

基于ssm的校运会管理系统设计与实现-计算机毕业设计源码+LW文档

开发语言:Java 框架:ssm JDK版本:JDK1.8 服务器:tomcat7 数据库:mysql 5.7(一定要5.7版本) 数据库工具:Navicat11 开发软件:eclipse/myeclipse/idea Maven包:…

CSS基础篇---01选择器、字体与文本样式

CSDN话题挑战赛第2期 参赛话题:学习笔记 文章目录 1.初识CSS CSS引入方式 2.选择器 标签(元素)选择器 class选择器 id选择器 通配符选择器 案例演示 3.字体样式 字体大小 字体粗细 字体样式 字体类型 字体系列 层叠性 font复…

VM关闭虚拟机之后,连接不上前一天设置的静态ip

错误场景: 问题原因: centos7 默认的网卡 ens33 在虚拟机启动时,没有自动启动。导致设置的静态ip不生效,故连接不上。 解决方案: 查看托管是否启动,倘若网卡没有启动很可能是没有加入托管。 查看托管是否…

【强化学习】《动手学强化学习》动态规划算法

【强化学习】《动手学强化学习》动态规划算法一、基本思想二、悬崖漫步环境三、策略迭代算法3.1 策略评估3.2 策略提升3.3 悬崖漫步环境下的策略迭代四、价值迭代算法一、基本思想 动态规划算法在计算机专业课中是特别重要的思想,将待求问题分解成若干个子问题&…

Springboot 集成kafka

一、创建项目并导入pom依赖 <dependency><groupId>org.springframework.kafka</groupId><artifactId>spring-kafka</artifactId> </dependency> 二、修改application.yml配置 1. producer 生产端的配置 spring:#重要提示:kafka配置,该…

Redis介绍和安装

Redis介绍 Redis是一个开源的、基于Key-Value(键-值&#xff09;存储的NoSQL数据库。Redis因其丰富的数据结构、极快的速度、齐全的功能而为人所知&#xff0c;它是目前内存数据库方面的事实标准&#xff0c;是目前使用广泛的开源缓存中间件。 Redis特点 结构丰富&#xff0…

CS231a课程笔记:Lecture2 Camera Models

关于齐次坐标&#xff1a;(15条消息) 为什么要引入齐次坐标&#xff0c;齐次坐标的意义&#xff08;一&#xff09;_追求卓越583的博客-CSDN博客_齐次坐标的意义(15条消息) 为什么要引入齐次坐标&#xff0c;齐次坐标的意义&#xff08;二&#xff09;_追求卓越583的博客-CSDN博…

DNS 解析流程

一、背景 最近&#xff0c;在S3协议项目中调研通过DNS域名解析处理流量负载均衡问题。原来对dns也有一些粗浅的了解&#xff0c;知道通过DNS可以将域名转换为IP地址&#xff0c;也可以做负载均衡。但是DNS的解析流程以及缓存等机制&#xff0c;只是一知半解。正好&#xff0c;…

windows安装nginx并设置开机自启动

在macOS和linux中使用nginx我早已经轻车熟路。突然切到windows的环境中&#xff0c;我反而不会用了。 之前写了《windows使用nginx探索笔记》内容比较冗长&#xff0c;所以本文尽量精简一下。 环境 操作系统&#xff1a;windows 2008R2 Datacenter 已经安装的软件&#xff1…

C语言中malloc(),free(),calloc(),realloc()

申请内存malloc()在申请内存时不会对内存进行初始化赋值 在申请内存后&#xff0c;没有对内存进行初始化的话&#xff0c;这段内存中就存储着系统随机值。 int n 5; int* p (int*)malloc(n * sizeof(int));malloc(size):size就是你想开辟的内存的字节大小。我们通常想要用这段…

SpringCloud基础6——分布式事务,Seata

用于复习快速回顾。 目录 1.分布式事务问题 1.1.本地事务&#xff0c;ACID原则 1.2.分布式事务 1.3.演示分布式事务问题 2.理论基础 2.1.CAP定理 2.1.1.一致性&#xff0c;数据同步 2.1.2.可用性&#xff0c;节点正常访问 2.1.3.分区容错 2.1.4.矛盾 2.2.BASE理论 …

vulnhub-xxe lab: 1

ifconfig nmap 192.168.61.0/24 找到192.168.61.145 目录扫描&#xff08;御剑&#xff09; 192.168.61.145/xxe 192.168.61.145/admin.php 无法访问&#xff0c;但是robots.txt里面写的应该不会是无效网站&#xff0c;所以可能是被拒绝访问了 抓xxe的包 可以发现是用xml写的…

[ web基础篇 ] Burp Suite 爆破 Basic 认证密码

&#x1f36c; 博主介绍 &#x1f468;‍&#x1f393; 博主介绍&#xff1a;大家好&#xff0c;我是 _PowerShell &#xff0c;很高兴认识大家~ ✨主攻领域&#xff1a;【渗透领域】【数据通信】 【通讯安全】 【web安全】【面试分析】 &#x1f389;点赞➕评论➕收藏 养成习…