Spark Catalyst

news/2024/5/18 18:00:56/文章来源:https://blog.csdn.net/qq_44226094/article/details/124098749

Spark Catalyst

  • 逻辑计划
    • 逻辑计划解析
    • 逻辑计划优化
    • Catalyst 规则优化过程
  • 物理计划
    • Spark Plan
      • JoinSelection
    • 生成 Physical Plan
      • EnsureRequirements

Spark SQL 端到端的优化流程:

  • Catalyst 优化器 : 包含逻辑优化/物理优化
  • Tungsten :

Spark SQL的优化过程 :

在这里插入图片描述

逻辑计划

val userFile: String = _
val usersDf = spark.read.parquet(userFile)val txFile: String = _
val txDf = spark.read.parquet(txFile)val users = usersDf.select("name", "age", "userId").filter($"age" < 30).filter($"gender".isin("M"))val result = txDF.select("price", "volume", "userId").join(users, Seq("userId"), "inner").groupBy(col("name"), col("age")).agg(sum(col("price") * col("volume")).alias("sum")result.write.parquet("_")

计算逻辑 :

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EkAXwKmc-1678098435847)(../../png/Catalyst/image-20230213212938895.png)]

Catalyst 逻辑优化阶段:

  • 逻辑计划解析 : 把 Unresolved Logical Plan 换为 Analyzed Logical Plan
  • 逻辑计划优化 : 基于启发式规则(Heuristics Based Rules) ,把 Analyzed Logical Plan 转为 Optimized Logical Plan

Catalyst 逻辑优化阶段

在这里插入图片描述

Unresolved Logical Plan :

在这里插入图片描述

逻辑计划解析

逻辑计划解析 : 结合 DataFrame 的 Schema ,确认计划中的表名、字段名、字段类型和实际数据是否一致。确认后,就生成 Analyzed Logical Plan

Analyzed Logical Plan :

在这里插入图片描述

逻辑计划优化

同种计算逻辑的多种实现方式 :

  • 按照不同的顺序对算子做排列组合
  • 最好顺序:能省则省、能拖则拖的开发原则,选择所有实现方式中最优

在这里插入图片描述

Catalyst 优化规则范畴 :

  • 谓词下推(Predicate Pushdown):把谓词 (过滤条件 age < 30) 推到离数据源最近
  • 列剪裁(Column Pruning): 只扫描与查询相关的字段
  • 常量替换 (Constant Folding): 如 :age <12 + 18 优化成 age < 30

Cache Manager 优化 :

  • Cache Manager :维护与缓存相关信息。即:维护 Mapping 映射字典,Key :逻辑计划,Value :对应的 Cache 元信息
  • 当 Catalyst 进行逻辑计划优化时,先在 Cache Manager 查找,当该逻辑计划分支在 Cache Manager 时,就进行替换该计划

Optimized Logical Plan :

在这里插入图片描述

Catalyst 规则优化过程

逻辑计划(Logical Plan),物理计划(Physical Plan)都继承 QueryPlan

QueryPlan 父类: TreeNode

  • TreeNode :语法树中对节点的抽象
  • TreeNode 有个字段 children ,类型是 Seq[TreeNode]
  • 利用 TreeNode 类型,能构建出树结构

TreeNode 定义了很多高阶函数,如:transformDown

  • transformDown 的形参: 各种优化规则,返回类型是 TreeNode
  • transformDown 是递归函数,先优化当前节点,再依次优化 children 中的子节点,直到整棵树的叶子节点

transformDown 类似转换过程:

//Expression的转换
import org.apache.spark.sql.catalyst.expressions._val myExpr: Expression = Multiply(Subtract(Literal(6), Literal(4)), Subtract(Literal(1), Literal(9)))val transformed: Expression = myExpr transformDown {// 二元操作符,转成加法操作case BinaryOperator(l, r) => Add(l, r)// 大于 5 ,转成 1case IntegerLiteral(i) if i > 5 => Literal(1)// 小于 5 ,转成转成 0case IntegerLiteral(i) if i < 5 => Literal(0)
}

转换过程意图:

在这里插入图片描述

物理计划

物理计划阶段(Physical Planning) :

  • 优化 Spark Plan :根据优化策略 (Strategies),把逻辑计划的关系操作符映射成物理操作符
  • 生成 Physical Plan :根据 Preparation Rules,对 Spark Plan 进行完善

在这里插入图片描述

Spark Plan

Spark Plan 优化策略 :

  • 基于模式匹配的偏函数(Partial Functions),把逻辑计划中的操作符平行映射为 Spark Plan 中的物理算子
类型优化策略含义&作用
通用BasicOperators逻辑到物理的基本映射:如Project/Filter/Sort
JoinSelection静态 Joln 策略选择
InMemoryScans缓存策略,对应逻辑优化阶段的 Cache Manager
Aggregation聚合策路
Window窗口计算策酪
SpecialLimits与 Limit 相关的优化策路
PythonEvalsPython UDF 优化策路
SparkScriptsTransformation 脚本优化策略
StreamingStatefulAggregationStrategy有状态的聚合策略
StreamingDeduplicationStrategy流处理中的去重策路
StreamingGlobalLimitStrategy流处理中的 Limit 处理策略
StreamingJoinStrategy流处理中的 Join 策略
StreamingRelationStrategy数据源读取策酪
FlatMapGroupsWithStateStrategy流处理中的 FlatMap 优化

JoinSelection

Catalyst 运行时的 Join 策略:

Join 策略执行效率排序含义
Broadcast Hash Join (BHJ)最优小表构建哈希表,把小表广播进行关联
Shuffle Sort Merge Join (SMJ)次优先 Shuffle , 再排序进行关联
Shuffle Hash Join (SHJ)次优先 Shuffle , 再构建哈希表进行关联
Broadcast Nested Loop Join (BNLJ)最差将小表广播进行关联
Shuffle Cartesian Product Join (CPJ)最差先 Shuffle 进行关联

数据分发与 Join 实现机制的组合 :

在这里插入图片描述

Join 策略的先决条件 :

  • 条件型 : 判决 5 大 Join 策略的先决条件
  • 指令型:开发者提供的 Join Hints

5 种 Join 策略的先决条件:

选择顺序Join 策略Join 类型表大小
等值 JoinInner Join不能 Full Outer Join能广播
1BHJ
2SMJ
3SHJ
4BNLJ
5CPJ

指令型信息: Join Hints,允许个人选择 Join 策略

  • 选择 SHJ :
val result = txDF.select("price", "volume", "userId").join(users.hint("shuffle_hash"), Seq("userId"), "inner").groupBy(col("name"), col("age")).agg(sum(col("price") * col("volume")).alias("revenue"))

Spark Plan :Join 策略是 SMJ

在这里插入图片描述

生成 Physical Plan

从 Spark Plan 到 Physical Plan 的转换,需要 Preparation Rules 规则

Preparation Rules :

Preparation Rules含义作用
EnsureRequirements确保每个操作符的输入要求,必要时添加 Shuffle/Sort为 Physical Plan 补充必要的操作,保证 Spark Plan 计划的每个步骤能够顺利执行
CollapseCodegenStagesTungsten 优化机制:全阶段代码生成(Whole Stage Code Generation)在同个 Stage 内部,尽可能地把所有操作和计算捏合成一个函数,提升计算效率
ReuseExchange内存或磁盘中的存储复用同样的执行计划能共享广播变量或 Shuffle 的中间结果,避免重复的 Shuffle 操作
ReuseSubquery子查询复用复用同样的查询结果,避免重复计算
PlanSubquery生成子查询对子查询应用 Preparation Rules
ExtractPythonUDFs提取 Python 的 UDF 函数把 Python UDF 分发到单独的 Python 进程

EnsureRequirements

EnsureRequirements (满足前提条件) : 对执行计划中的每个操作符节点,都有 4 个属性用来描述数据输入/ 输出的分布状态

操作符属性含义
outputPartitioning输出数据的分区规则
outputOrdering输出数据的排序规则
requireChildDistribution要求输入数据满足某种分区规则
requireChildOrdering要求输入数据满足某种排序规则

Project 不满足 SortMergeJoin 的 Requirements:

  • outputPartitioning 属性 :Unknow,未 Shuffle
  • outputOrdering 属性: None ,未排序

在这里插入图片描述

EnsureRequirements 规则添加 Exchange/Sort :

  • Exchange : Shuffle 操作,满足 SortMergeJoin 对数据分布的要求
  • Sort :排序,满足 SortMergeJoin 对数据有序的要求
  • 调用 Physical Plan 的 doExecute 方法,把结构化查询的计算结果,转换成
    RDD[InternalRow]
  • InternalRow :Tungsten 设计的定制化二进制数据结构
  • 调用 RDD[InternalRow] 上的 Action 算子,Spark 就触发 Physical Plan 执行

在这里插入图片描述

Physical Plan :

  • EnsureRequirements 在两个分支上添加 Exchange/Sort
  • *(数字) : * : WSCG,数字 : Stage 编号
  • 数字相同会 WSCG 合成

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_78308.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pytorch安装的超级详细教程(没有之一)

一、发展历程 &#xff08;简单介绍&#xff09; (15年)caffe --> (16年)tensorflow1.x --> (17年)keras --> (18年)Tensorflow2.x --> (19年)pytorch。 面向gihub开源项目编程。 向下支持比较好&#xff0c;各个版本之间支持比较好&#xff0c;兼容性强。 版本…

自动驾驶介绍系列 ———— 看门狗

文章目录硬件看门狗软件看门狗差异分析延申窗口看门狗硬件看门狗 硬件看门狗的本质上是一个定时器电路。通常存在一个输入&#xff0c;输入到MCU的RST端。在正常工作状态下&#xff0c;MCU每隔固定时间间隔会输出一个信号给RST端&#xff0c;实现对看门狗端清零。如果在指定的时…

全网最全之接口测试【加密解密攻防完整版】实战教程详解

看视频讲的更详细&#xff1a;https://www.bilibili.com/video/BV1zr4y1E7V5/? 一、对称加密 对称加密算法是共享密钥加密算法&#xff0c;在加密解密过程中&#xff0c;使用的密钥只有一个。发送和接收双方事先都知道加密的密钥&#xff0c;均使用这个密钥对数据进行加密和解…

JAVA开发运维(nginx工作原理)

nginx源码目录结构&#xff1a; . ├── auto 自动检测系统环境以及编译相关的脚本 │ ├── cc 关于编译器相关的编译选项的检测脚本 │ ├── lib nginx编译所需要的一些库的检测脚本 │ ├── os 与平台相关的一些系统参数…

【3.6】链表、操作系统CPU是如何执行程序的、Redis数据类型及其应用

链表 题目题型203. 移除链表元素 - 力扣&#xff08;LeetCode&#xff09;辅助头节点解决移出head问题707. 设计链表 - 力扣&#xff08;LeetCode&#xff09;辅助头节点206. 反转链表 - 力扣&#xff08;LeetCode&#xff09;迭代 / 递归19. 删除链表的倒数第 N 个结点 - 力扣…

web餐饮开源程序

简介 一款专门针对餐饮行业而开发桌面应用程序 技术 借助Panuon.UI.Silver控件库&#xff0c;开发的一款餐饮软件。 运行环境&#xff1a;.NETFramework,Versionv4.8。 运行数据库&#xff1a;MySql。 ORM框架&#xff1a;SqlSugar。 第三方插件&#xff1a;Panuon.UI.Silv…

网上订餐管理系统的设计与实现

技术&#xff1a;Java、JSP等摘要&#xff1a;随着信息技术的广泛使用&#xff0c;电子商务对于提高管理和服务水平发挥着关键的作用。越来越多的商家开始着手于电子商务建设。电子商务的发展为人们的生活提供了极大的便利&#xff0c;也成为现实社会到网络社会的真实体现。当今…

来吧!接受Kotlin 协程--线程池的7个灵魂拷问

前言 之前有分析过协程里的线程池的原理&#xff1a;Kotlin 协程之线程池探索之旅(与Java线程池PK)&#xff0c;当时偏重于整体原理&#xff0c;对于细节之处并没有过多的着墨&#xff0c;后来在实际的使用过程中遇到了些问题&#xff0c;也引发了一些思考&#xff0c;故记录之…

网络协议丨从物理层到MAC层

我们都知道TCP/IP协议其中一层&#xff0c;就是物理层。物理层其实很好理解&#xff0c;就是物理攻击的物理。我们使用电脑上网时的端口、网线这些都属于物理层&#xff0c;没有端口没有路由你没有办法上网。网线的头我们叫水晶头&#xff0c;也是物理层的一份子。如果你的面前…

深入理解java虚拟机精华总结:性能监控和故障处理工具、类加载机制

深入理解java虚拟机精华总结&#xff1a;性能监控和故障处理工具、类加载机制性能监控和故障处理工具、类加载机制jpsjstatjinfojmapjhatjstackVisualVM类加载机制类加载的时机类加载的过程加载验证准备解析初始化类加载器类与类加载器双亲委派模型破坏双亲委派模型往期内容&am…

X264简介-Android使用(二)

X264简介-Android使用&#xff08;二&#xff09; 4、Ubuntu上安装ffmpeg&#xff1a; 检查更新本地软件包&#xff08;如果未更新&#xff0c;reboot Vmware&#xff09;&#xff1a; sudo apt update sudo apt upgrade官网下载的source文件安装&#xff1a; http://ffmpe…

做数据分析有前景吗?

当然有前景的。 每个行业都有发展前景&#xff0c;只是看你自身的技能情况或者关系人脉、软实力方面是否到位&#xff0c;不同的行业要求不一样。作为数据分析领域而言&#xff0c;属于IT行业&#xff0c;看的是你的专业技能&#xff1b;只要你技能过硬&#xff0c;就能在行业…

面向对象设计模式:行为型模式之状态模式

文章目录一、引入二、状态模式2.1 Intent 意图2.2 Applicability 适用性2.3 类图2.4 状态模式与策略模式的对比2.5 状态模式实例&#xff1a;糖果机2.6 状态模式实例&#xff1a;骑自行车升降档一、引入 State Diagram 状态图&#xff1a; A state diagram is a type of diagr…

OceanBase 第六期技术征文活动|小鱼还能“更快”吗?你来试试

2022 年 8 月 10 日&#xff0c;我们在 OceanBase 年度发布会上正式发布了 OceanBase 4.0&#xff08;代号&#xff1a;小鱼&#xff09;&#xff0c;并在现场展区尝试做了一些有趣的事情&#xff0c;“小鱼”可以单机版部署在个人 PC 以及树莓派&#xff0c;让来到现场的开发者…

网络编程 socket 编程(一)

1. C/S 架构 C/S 架构即客户端/服务端架构&#xff0c;B/S 架构&#xff08;浏览器与服务端&#xff09;也是 C/S 架构的一种。 C/S 架构与 socket 的关系&#xff1a;学习 socket 可以完成 C/S 架构的开发。 2. osi 七层 一个完整的计算机系统由硬件、操作系统以及应用软件…

C++基础——Ubuntu下编写C++环境配置总结(C++基本简介、Ubuntu环境配置、编写简单C++例程)

【系列专栏】&#xff1a;博主结合工作实践输出的&#xff0c;解决实际问题的专栏&#xff0c;朋友们看过来&#xff01; 《QT开发实战》 《嵌入式通用开发实战》 《从0到1学习嵌入式Linux开发》 《Android开发实战》 《实用硬件方案设计》 长期持续带来更多案例与技术文章分享…

xxl-job启用https访问

一、准备证书 1.进入想要生成证书的目录 2.在路径中输入cmd,点击回车 &#xff08;1&#xff09; &#xff08;2&#xff09; 3.输入命令keytool -genkeypair -alias "boot" -keyalg "RSA" -keystore "seek.keystore" 4.输入信息&#xff0c…

基于jdk8的HashMap源码解析

hashMap常见面试题总览 为什么重写Equals还要重写HashCode方法&#xff1f;HashMap如何避免内存泄漏问题&#xff1f;HashMap1.7底层是如何实现的&#xff1f;HashMapKey为null存放在什么位置&#xff1f;HashMap如何解决Hash冲突问题&#xff1f;HashMap底层采用单链表还是双…

面向对象设计模式:结构型模式之代理模式

一、引入 访问 FB&#xff1a;代理服务器 二、代理模式 aka Surrogate 2.1 Intent 意图 Provide a surrogate (代理) or placeholder for another object to control access to it. 为另一个对象提供一个代理或占位符&#xff0c;以控制对它的访问。代理模式给某一个对象提…

分享几种WordPress怎么实现相关文章功能

一淘模板&#xff08;56admin.com&#xff09;给大家介绍一下WordPress代码实现相关文章的几种方法&#xff0c;希望对大家有所帮助&#xff01; WordPress很多插件可以实现相关文章的功能&#xff0c;插件的优点是配置简单&#xff0c;但是可能会对网站的速度造成一些小的影响…