是谁?阻止CXL在AI场景大展身手~

news/2024/4/29 18:43:30/文章来源:https://blog.csdn.net/zhuzongpeng/article/details/137126816

CXL虽然被视为业内新宠,但好像在AI场景的应用反而没有得到广泛的响应。

AI场景对内存带宽、容量以及数据一致性有着极高需求,特别是在深度学习训练和推理过程中,大量数据需要在CPU、GPU、加速器以及内存之间快速、高效地流动。CXL作为一种新兴的高速互连技术,旨在通过提供低延迟、高带宽的内存一致性互连,解决现代数据中心的内存扩展、池化和异构计算问题。然而,AI场景是否真正需要CXL,取决于以下几个关键因素的综合分析:

一是内存扩展与池化

AI应用,特别是大规模深度学习模型训练,常常需要远超单台服务器内存容量的数据缓冲区。CXL通过允许CPU直接访问连接设备(如CXL内存扩展器或CXL内存模组)上的内存,能够显著增加可用内存容量,避免因内存不足导致的数据交换瓶颈。同时,CXL支持内存池化,使得内存资源能够在多台服务器间共享,提高整体内存利用率,这对于成本敏感的AI数据中心至关重要

图片

二是异构计算支持

AI计算往往依赖于CPU、GPU、FPGA、ASIC等多种加速器的协同工作。CXL提供了一种低延迟、高带宽的缓存一致性互连,使得CPU和其他加速器能够透明地共享同一内存空间,简化编程模型,提高数据访问效率,这对于AI应用的并行计算和分布式训练尤为重要。

图片

三是带宽与延迟

AI工作负载对内存带宽有极高要求,尤其是在处理大量浮点运算和大规模张量数据时。CXL 3.0规范基于PCIe 6.0支持高达64 GT/s的带宽,远超过当前PCIe 4.0(16 GT/s)和PCIe 5.0(32 GT/s),能够有效满足AI应用的带宽需求。

图片

然而,对于AI而言,带宽并非唯一的决定性因素,延迟同样重要。尽管CXL通过缓存一致性机制减少了数据同步的复杂性,但与专为AI优化的互连技术(如Nvidia的NVLink或AMD的Infinity Fabric)相比,其延迟可能仍不具优势。这些专有技术通常提供更低的延迟和更高的带宽,更适合AI应用中的大规模并行计算。

四是互连技术生态

AI硬件生态系统中,GPU是当前AI训练和推理的主力,尤其是Nvidia的GPU产品。然而,Nvidia的GPU并未广泛支持CXL,而是倾向于使用自家的NVLink或其他专有互连技术。专有互连技术如NVLink、InfiniBand等在带宽与延迟方面优于PCIe/CXL,更适合AI应用的大规模并行计算需求。在AI集群中,这些专有协议成为首选的扩展与扩展互连技术。这意味着AI系统中大量使用Nvidia GPU的场景下,CXL可能无法充分发挥其优势。

图片

尽管AMD的部分产品如MI300A理论上具备CXL支持,但实际应用中可能存在限制。缺乏关键硬件的支持,限制了CXL在AI场景下的广泛部署。相比之下,如果AI系统中包含支持CXL的加速器,或者采用CXL内存扩展器和内存池化技术,CXL的价值将更加突出。

图片

尽管CXL内存带宽扩展理论上对AI有潜在价值,但由于硬件支持不足、与其他专有互连技术在带宽与延迟上的差距,以及AI工作负载的特定需求,CXL在短期内可能难以成为AI领域的主流互联标准。随着CXL技术的发展、生态系统完善以及AI硬件市场动态的变化,这一需求判断可能会随着时间的推移而发生变化。

从其他定制AI超大规模芯片的发展来看,CXL的AI场景之路也并没有很顺利。超大规模数据中心运营商(如Google、Amazon、Facebook等)近年来大力投资研发定制AI芯片,以满足其特定工作负载需求、降低成本并提高能源效率。这些芯片通常结合ASIC、FPGA、定制CPU或GPU等多种技术,实现高度优化的AI处理能力。它们在设计时可能考虑与CXL兼容,以利用其内存扩展与池化功能。

然而,考虑到上述CXL在AI领域面临的挑战,以及定制AI芯片往往更倾向于采用专有或经过优化的互连技术(如Google的TPU通过定制的高速网络互连),CXL在定制AI超大规模芯片中的实际采纳情况可能较为有限。定制芯片厂商可能更倾向于选择与自家硬件架构紧密集成、性能更优的互连解决方案,而非依赖标准化的CXL。

当然,也不用失望,AI场景的发展不顺利。但是在非AI场景下,CXL内存池化与扩展的经典用例依然具有显著价值。例如比较典型的应用场景:

  • 内存池化:对于传统企业级应用、内存数据库、数据分析等工作负载,内存池化可通过动态分配内存资源,提高整体DRAM利用率,减少硬件成本。这些工作负载对内存一致性要求较高,且可能不涉及大规模并行计算,因此CXL的低延迟、一致性保证特性更具吸引力。

  • 内存扩展:对于科学计算、金融建模、高性能计算(HPC)等需要大量内存的场景,CXL内存扩展能够提供远超传统服务器内存容量的解决方案,无需牺牲内存访问性能。这些应用往往对内存带宽需求强烈,但对互连技术的特定要求可能不如AI严格。

针对这个话题,你有什么不同的看法吗?欢迎评论区留言交流~

如果您看完有所受益,欢迎点击文章底部左下角“关注”并点击“分享”、“在看”,非常感谢!

精彩推荐:

  • 字节跳动入局存储内存SCM

  • 解读“CFMS中国闪存市场峰会”存储技术看点

  • 首个业内DNA存储技术规范发布

  • 如何突破SSD容量提升的瓶颈?

  • 固态存储是未来|浅析SSD架构的演进与创新技术

  • 论文解读:NAND闪存中读电压和LDPC纠错码的高效设计

  • 华为新发布磁电存储“王炸”,到底是什么?

  • SSD LDPC软错误探测方案解读

  • 关于SSD LDPC纠错能力的基础探究

  • 存储系统如何规避数据静默错误?

  • PCIe P2P DMA全景解读

  • 深度解读NVMe计算存储协议

  • 对于超低延迟SSD,IO调度器已经过时了吗?

  • 浅析CXL P2P DMA加速数据传输的原理

  • NVMe over CXL技术如何加速Host与SSD数据传输?

  • 浅析LDPC软解码对SSD延迟的影响

  • 为什么QLC NAND才是ZNS SSD最大的赢家?

  • SSD在AI发展中的关键作用:从高速缓存到数据湖

  • 浅析不同NAND架构的差异与影响

  • SSD基础架构与NAND IO并发问题探讨

  • 字节跳动ZNS SSD应用案例解析

  • CXL崛起:2024启航,2025年开启新时代

  • NVMe SSD:ZNS与FDP对决,你选谁?

  • 浅析PCI配置空间

  • 浅析PCIe系统性能

  • 存储随笔《NVMe专题》大合集及PDF版正式发布!

如果您也想针对存储行业分享自己的想法和经验,诚挚欢迎您的大作。
投稿邮箱:Memory_logger@163.com (投稿就有惊喜哦~)

《存储随笔》自媒体矩阵

图片

更多存储随笔科普视频讲解,请移步B站账号

图片

如您有任何的建议与指正,敬请在文章底部留言,感谢您不吝指教!如有相关合作意向,请后台私信,小编会尽快给您取得联系,谢谢!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_1027146.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java基础面试复习

一、java基础 1、jdk、jre、jvm的区别 jdk:Java程序开发工具包。 jre:Java程序运行环境。 jvm:Java虚拟机。 2、一个Java源文件中是否可以包含多个类有什么限制 解:可以包含多个类但是只有一个类生命成public并且要和文件名一致 …

代码随想录训练营day18

第六章 二叉树 part05 1.LeetCode.找树左下角的值 1.1题目链接:513.找树左下角的值 文章讲解:代码随想录 视频讲解:B站卡哥视频 1.2思路:本题要找出树的最后一行的最左边的值。此时大家应该想起用层序遍历是非常简单的了&…

24计算机考研调剂 | 【官方】北京科技大学

北京科技大学 考研调剂招生信息 招生专业: 085404(计算机技术) 081200(计算机科学与技术) 调剂要求:(调剂基本分数) 我中心将在教育部“全国硕士生招生调剂服务系统”&#xff08…

MRC是谁?- 媒体评级委员会 Media Rating Council

在在线广告的世界里,有许多不同的技术和实践用于提供和衡量广告。对于广告商、出版商和营销人员来说,了解这些技术是如何工作的以及如何有效使用这些技术很重要。在这方面发挥关键作用的一个组织是媒体评级委员会(MRC)。 1. 了解…

市场复盘总结 20240328

仅用于记录当天的市场情况,用于统计交易策略的适用情况,以便程序回测 短线核心:不参与任何级别的调整,采用龙空龙模式 一支股票 10%的时候可以操作, 90%的时间适合空仓等待 二进三: 进级率中 40% 最常用的…

C#手术麻醉系统源码 可对接HIS LIS PACS 医疗系统各类设备 医院手麻系统源码

C#手术麻醉系统源码 可对接HIS LIS PACS 医疗系统各类设备 手术麻醉信息管理系统主要还是为了手术室开发提供全面帮助的系统,其主要是由监护设备数据采集子系统和麻醉临床系统两个子部分组成。包括从手术申请到手术分配,再到术前访视、术中记录及术后…

并发编程之Callable方法的详细解析(带小案例)

Callable &#xff08;第三种线程实现方式&#xff09; Callable与Runnable的区别 Callable与Runnable的区别 实现方法名称不一样 有返回值 抛出了异常 ​class Thread1 implements Runnable{Overridepublic void run() { ​} } ​ class Thread2 implements Callable<…

软件推荐 篇三十七:安卓软件推荐IP Tools「IP工具」:全面解析网络状态与管理的必备神器

引言&#xff1a; 随着互联网的普及&#xff0c;网络已经成为我们日常生活中不可或缺的一部分。无论是工作、学习还是娱乐&#xff0c;我们都需要通过网络来进行各种操作。然而&#xff0c;网络问题的出现往往会给我们带来诸多困扰。为了更好地管理和优化网络&#xff0c;我们…

虹科Pico汽车示波器 | 免拆诊断案例 | 2018款东风风神AX7车发动机怠速抖动、加速无力

一、故障现象 一辆2018款东风风神AX7车&#xff0c;搭载10UF01发动机&#xff0c;累计行驶里程约为5.3万km。该车因发动机怠速抖动、加速无力及发动机故障灯异常点亮而进厂维修&#xff0c;维修人员用故障检测仪检测&#xff0c;提示气缸3失火&#xff1b;与其他气缸对调点火线…

【Qt】使用Qt实现Web服务器(五):QtWebApp上传文件、详解请求数据处理过程

1、示例 1)演示 2)上传图片 3)显示图片 2、源码 示例源码Demo1->FileUploadController void FileUploadController::service(HttpRequest& request, HttpResponse& response)

快速幂算法在Java中的应用

引言&#xff1a; 在计算机科学和算法领域中&#xff0c;快速幂算法是一种用于高效计算幂运算的技术。在实际编程中&#xff0c;特别是在处理大数幂运算时&#xff0c;快速幂算法能够显著提高计算效率。本文将介绍如何在Java中实现快速幂算法&#xff0c;并给出一些示例代码和应…

Kubernetes 知识体系 系列一

多年前&#xff0c;大多数软件应用程序都是大型的单体&#xff0c;要么作为单个进程运行&#xff0c;要么作为少数服务器上的少量进程运行。这种过时的系统一直延续很久。 它们的发布周期较慢&#xff0c;更新相对较少。 在每个发布周期结束时&#xff0c;开发人员将整个系统…

2024最新华为OD机试试题库全 -【二叉树计算】- C卷

1. 🌈题目详情 1.1 ⚠️题目 给出一个二叉树如下图所示: 请由该二叉树生成一个新的二叉树,它满足其树中的每个节点将包含原始树中的左子树和右子树的和。 左子树表示该节点左侧叶子节点为根节点的一颗新树;右子树表示该节点右侧叶子节点为根节点的一颗新树。 1.2 �…

钡铼技术R40路由器助力构建无人值守的智能化污水处理厂

钡铼技术R40路由器作为智能化污水处理厂的关键网络设备&#xff0c;发挥着至关重要的作用&#xff0c;助力构建无人值守的智能化污水处理系统。在现代社会&#xff0c;污水处理是城市环境保护和可持续发展的重要组成部分&#xff0c;而智能化污水处理厂借助先进的技术和设备&am…

OPC560:打造智能制造领域的通讯桥梁

描述&#xff1a;随着工业4.0时代的到来&#xff0c;智能制造已成为推动工业发展的核心力量。在这一背景下&#xff0c;高效、稳定的数据通讯系统成为连接设备、平台和人员的关键。OPC560以其强大的功能和兼容性&#xff0c;为智能制造领域的数据通讯提供了全新解决方案。本文将…

幻兽帕鲁服务器价格表_阿里云/腾讯云/京东云/华为云报价大全

2024年全网最全的幻兽帕鲁服务器租用价格表&#xff0c;阿里云幻兽帕鲁游戏服务器26元1个月、腾讯云32元一个月、京东云26元一个月、华为云24元1个月&#xff0c;阿腾云atengyun.com整理最新幻兽帕鲁专用4核16G、8核16G、8核32G游戏服务器租用价格表大全&#xff1a; 阿里云幻…

极简wordpress网站模板

Pithy设计师wordpress网站模板 精练简洁的wordpress模板&#xff0c;设计师或设计工作室展示型网站模板。 https://www.jianzhanpress.com/?p6329

网络编程综合项目-多用户通信系统

文章目录 1.项目所用技术栈本项目使用了java基础&#xff0c;面向对象&#xff0c;集合&#xff0c;泛型&#xff0c;IO流&#xff0c;多线程&#xff0c;Tcp字节流编程的技术 2.通信系统整体分析主要思路&#xff08;自己理解&#xff09;1.如果不用多线程2.使用多线程3.对多线…

数据库管理开发工具Navicat for MySQL Mac版下载

Navicat for MySQL&#xff08;Mac版&#xff09;是一款强大的数据库管理开发工具&#xff0c;专为MySQL设计。它提供直观的用户界面&#xff0c;支持数据建模、查询构建、数据传输等功能&#xff0c;帮助用户轻松管理数据库。其特点包括高效的数据处理能力、安全的数据传输机制…

mysql80-DBA数据库学习1-数据库安装

掌握能力 核心技能 核心技能 mysql部署 官网地址www.mysql.com 或者www.oracle.com https://dev.mysql.com/downloads/repo/yum/ Install the RPM you downloaded for your system, for example: yum install mysql80-community-release-{platform}-{version-number}.noarch…