Spark 平衡 CPU

news/2024/5/3 14:10:18/文章来源:https://blog.csdn.net/qq_44226094/article/details/129321784

Spark 平衡 CPU

  • CPU/内存平衡
  • CPU 低效
    • 线程挂起
    • 调度开销
  • 优化 CPU

CPU/内存平衡

Spark 将内存分 :

  • Execution Memory : 用于分布式任务执行
  • Storage Memory : 用于 RDD 缓存
  • RDD 缓存展开前消耗 Execution Memory , 最后占用 Storage Memory

线程/执行内存关系:
执行内存抢占规则 : 在同个 Executor 有 N 个线程尝试抢占执行内存
抢占原则:

  • 执行内存总大小 (M) = Execution Memory 初始大小 + Storage Memory 剩余空间
  • 每个线程的可用内存的上下限,下限 : M/N/2,上限 : M/N

平衡 CPU/内存的 3 类配置参数 : 并行度、集群的并行计算能力、执行内存大小

并行度 :分布式数据集的划分数

  • 并行度越高,数据的粒度越细,数据分片越多,数据越分散

并行度的配置项 :

  • spark.default.parallelism : 设置 RDD 的默认并行度
  • spark.sql.shuffle.partitions : Spark SQL 指定 Shuffle Reduce 默认的并行度

并发度 : 同一时间内,一个 Executor 能同时运行的最大任务数量

  • spark.executor.cores :Executor 的线程池大小
  • spark.task.cpus :每个任务在运行时要消耗的线程数
  • 并发度 = Executor 的线程池大小/ 每个任务运行时的线程数
  • spark.task.cpus 默认为 1,并发度默认为 spark.executor.cores

Executor 线程池:线程可以复用,但同一时间中,每个线程只能计算一个任务

  • 每个任务负责处理一个数据分片
  • 在运行时,线程、任务、分区是一一对应的关系

执行内存大小:

  • 堆内执行内存的初始值:spark.executor.memory * spark.memory.fraction * (1 - spark.memory.storageFraction)
  • 堆外执行内存 :spark.memory.offHeap.size * (1 - spark.memory.storageFraction)

CPU 低效

线程挂起

线程挂起的原因 :

  • 动态变化的执行内存总量 M
  • 动态变化的并发度 N~
  • 分布式数据集的数据分布

动态变化的执行内存总量 M :

  • 下限: Execution Memory 初始值
  • 上限: spark.executor.memory * spark.memory.fraction
  • 上限会随着 Storage Memory 增加,而减少

线程总数 (N) 是固定 :

  • Executor 最大并发度 (N) : spark.executor.cores/spark.task.cpus
  • Executor 当前并发度 (N~) : Executor 中当前并行执行的任务数 ( N~ <= N )

数据分片的数据量决定了任务要申请多少内存

  • 当分布式数据集的并行度设置好,线程挂起也就解决

调度开销

并行度设到最大,每个数据分片足够小,小到每个 CPU 线程都能申请到内存

  • 数据分散的副作用:调度开销骤增

优化 CPU

定 Executor 线程池和执行内存大小的算法:

  • 一个数据分片大小在(M/N/2, M/N)之间的并行度

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_267360.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2.3 二分搜索技术

二分搜索算法是运用分治策略的典型例子。给定己排好府的 n个元素a10:n-1]&#xff0c;现要在这n个元素中找出一特定元素3。首先较容易想到的是用顺序搜索方法&#xff0c;逐个比较a10:1-1]中元素&#xff0c;直至找出元素&#xff0c;或搜索遍整个数组后确定&#xff0c;不在其…

字节3次都没裁掉的7年老测试。掌握设计业务与技术方案,打开上升通道!

前言职场中的那些魔幻操作&#xff0c;研发最烦的是哪个&#xff1f;“面对业务需求的时候&#xff0c;可能都听过这样一句话&#xff1a;这个很简单&#xff0c;直接开发&#xff0c;三天内上线&#xff1b;”朋友说&#xff1a;“产品听了流泪&#xff0c;测试见了崩溃&#…

元宇宙、区块链 通俗易懂

什么是区块链&#xff1f;比特币挖矿是什么&#xff1f;元宇宙是什么&#xff1f;Web(万维网)的三权化进化&#xff1a;基于此&#xff0c;介绍下“元宇宙”。1992年&#xff0c;美国作家史蒂芬森在《雪崩》一书中首次提出了“元宇宙(Metaverse)”的概念。元宇宙实际上就是一种…

[Python图像处理] 使用高通滤波器实现同态滤波

使用高通滤波器实现同态滤波同态滤波基础实现同态滤波相关链接同态滤波基础 同态滤波是一种去除图像中乘性噪声的技术&#xff0c;常用于校正图像中的不均匀照明。根据图像形成的光照反射模型&#xff0c;图像 f(x,y)f(x,y)f(x,y) 可以由以下两个分量表征&#xff1a; 入射到…

一篇深入解析BTF 实践指南

BPF 是 Linux 内核中基于寄存器的虚拟机&#xff0c;可安全、高效和事件驱动的方式执行加载至内核的字节码。与内核模块不同&#xff0c;BPF 程序经过验证以确保它们终止并且不包含任何可能锁定内核的循环。BPF 程序允许调用的内核函数也受到限制&#xff0c;以确保最大的安全性…

scratch老鹰捉小鸡 电子学会图形化编程scratch等级考试二级真题和答案解析2022年12月

目录 scratch老鹰捉小鸡 一、题目要求 1、准备工作 2、功能实现 二、案例分析 <

分布式系统中的补偿机制设计问题

我们知道&#xff0c;应用系统在分布式的情况下&#xff0c;在通信时会有着一个显著的问题&#xff0c;即一个业务流程往往需要组合一组服务&#xff0c;且单单一次通信可能会经过 DNS 服务&#xff0c;网卡、交换机、路由器、负载均衡等设备&#xff0c;而这些服务于设备都不一…

使用flex弹性造APP首页轮子【前端Flex弹性布局】

文章目录一.使用flex弹性造一个APP首页轮子二.需求分析和完成步骤三.效果预览:一.使用flex弹性造一个APP首页轮子 这是内科大企业课(全栈开发_web前端的课程)&#xff0c;需求如下&#xff1a; 使用Flex弹性布局&#xff0c;仿写下面的页面&#xff1a; 二.需求分析和完成步…

Ubuntu系统升级16.04升级18.04

一、需求说明 作为Linux发行版中的后起之秀&#xff0c;Ubuntu 在短短几年时间里便迅速成长为从Linux初学者到实验室用计算机/服务器都适合使用的发行版&#xff0c;目前官网最新版本是22.04。Ubuntu16.04是2016年4月发行的版本&#xff0c;于2019年4月停止更新维护。很多软件支…

剑指 Offer 58 - 翻转单词顺序

摘要 剑指 Offer 58 - I. 翻转单词顺序 一、双指针解析 算法解析&#xff1a; 倒序遍历字符串s &#xff0c;记录单词左右索引边界i , j&#xff1b;每确定一个单词的边界&#xff0c;则将其添加至单词列表res&#xff1b;最终&#xff0c;将单词列表拼接为字符串&#xff…

九龙证券“风光储锂芯”集体回暖 创业板指探低回升

周一&#xff0c;A股三大指数体现分解&#xff0c;沪指微跌&#xff0c;创业板指探低上升小幅上涨。盘面上&#xff0c;“风景储锂芯”集体反弹&#xff0c;6G概念再度大涨&#xff0c;消费股午后逆势走强&#xff0c;酒店旅游方向领涨&#xff0c;而前期热门的数字经济概念震动…

Ubuntu下安装Docker

大家好&#xff0c;我是中国码农摘星人。 欢迎分享/收藏/赞/在看&#xff01; 文章目录1 安装Docker1.1 使用官方安装脚本自动安装 &#xff08;仅适用于公网环境&#xff09;1.2 手动安装帮助1.2.1 Ubuntu 14.04 16.04 (使用apt-get进行安装)2 安装校验3 镜像加速器3.1 安装&a…

【Azure 架构师学习笔记】-Azure Storage Account(1)- Queue Storage

本文属于【Azure 架构师学习笔记】系列。 本文属于【Azure Storage Account】系列。 接上文 【Azure 架构师学习笔记】-Azure Storage Account&#xff08;1&#xff09;-类型简介 前言 Azure Storage Queues 是一个专门用来处理基于云环境队列的Azure 服务。每个队列都维护着…

【编程基础之Python】11、Python中的表达式

【编程基础之Python】11、Python中的表达式Python中的表达式表达式与运算符算术表达式赋值表达式比较表达式逻辑表达式位运算表达式总结Python中的表达式 在Python中&#xff0c;表达式是由操作数、运算符和函数调用等组成的语法结构&#xff0c;可以进行各种数学运算、逻辑判…

css盒模型详解

一、引言 盒模型是网页开发中的一个基本概念&#xff0c;它描述了网页元素的外观和大小。盒模型由内容区域、内边距、边框和外边距四个部分组成&#xff0c;这些部分的大小和位置都可以通过CSS进行控制。在本文中&#xff0c;我们将介绍盒模型的概念和作用&#xff0c;并提出本…

【微信小程序】-- 页面事件 - 上拉触底(二十六)

&#x1f48c; 所属专栏&#xff1a;【微信小程序开发教程】 &#x1f600; 作  者&#xff1a;我是夜阑的狗&#x1f436; &#x1f680; 个人简介&#xff1a;一个正在努力学技术的CV工程师&#xff0c;专注基础和实战分享 &#xff0c;欢迎咨询&#xff01; &…

Canal实战 canal的坑 CanalParseException: column size is not match for table 错误

时序表结构方案设计 异常现象截图 canal的坑&#xff1a;CanalParseException: column size is not match for table (表结构缓存异常阻塞问题) 背景 早期的canal版本(<1.0.24)&#xff0c;在处理表结构的DDL变更时采用了一种简单的策略&#xff0c;在内存里维护了一个当…

企业级信息系统开发学习笔记1.7 基于XML配置方式使用Spring MVC

文章目录零、本节学习目标一、Spring MVC概述1、MVC架构2、Spring MVC3、使用Spring MVC的两种方式二、基于XML配置与注解的方式使用Spring MVC&#xff08;一&#xff09;创建Spring项目【SpringMVCDemo01】&#xff08;二&#xff09;在pom文件里添加相关依赖&#xff08;三&…

QT入门Display Widgets之QLine、QLcdNumber、QTextBrowser

目录 一、QLine界面相关 1、布局介绍 2、界面基本属性 二、QLCDNumber的介绍 1、界面布局 2、定时器代码测试 三、QTextBrowser 此文为作者原创&#xff0c;创作不易&#xff0c;转载请标明出处&#xff01; 一、QLine界面相关 1、布局介绍 先看下界面中创建个Q…

电池保护板 - 问题归纳

电池保护板 - 问题归纳简介充电锂电池磷酸铁锂电池放电总结最近更新日期&#xff1a;2023-03-07简介 电池充放电过程中&#xff0c;如果电压、电流或温度等参数不稳定或超出电池的安全范围&#xff0c;就会对电池造成损害&#xff0c;甚至可能引发安全事故。为了保护电池的安全…