如果我只有一个奔腾CPU,怎么加速推理神经网络?

news/2024/4/30 0:16:35/文章来源:https://blog.csdn.net/weixin_43945848/article/details/129295118

前言

有人说当下的AI热潮不过是算力堆砌的产物。现在层出不穷的各种大模型大训练集,使用复杂精致的技术在排行榜上不断刷新分数,这些人似乎忘了一件事情,AI模型最终是要落地的,是要用的,如果不能普及开去那和在象牙塔中精心雕刻雕塑又有什么区别呢?尽管现在有不少简单易用的框架都支持硬件加速,但gpu高昂的成本和厂家自我研发的诸如NPU之类的框架复杂度依然存在。所以本文将以一个天真可爱的想法展开,如果我就是个穷鬼,掏不起钱买显卡,只有一个五年前的Intel低端cpu,但我也想玩时下流行的style transfer GAN,该怎么办?

环境

首先迎来本文的主角1号,我们的style transfer模型xxx.onnx:
处于隐私保护,这里不能透露主角的姓名,只能通过输入输出来管中窥豹捏。
在这里插入图片描述
可以看到输入是1,?,?,3,输出是?,?,?,3,我们确认这是个nhwc的输入,和onnx的标准输入形状ncwh是不一样的捏,据说这点会影响性能推理,但实测下来并没有。此外,?号表示动态输入,说明这个模型的输入输出都没有固定形状。如果你还是听不懂的话,就是图片进模型图片出模型捏,像下面这样:

原图:
在这里插入图片描述
生成图:
在这里插入图片描述
然后是本文主角2号,咱们高贵的奔腾cpu:
在这里插入图片描述

最后是本文主角3号:
python3.10.6
Onnxruntime1.14.0
在这里插入图片描述

加速

1.基准测试

import onnxruntime as ort
options = ort.SessionOptions()
options.enable_profiling = True #记录性能开关
result = session.run(None, {x: img})[0] #运行推理
prof_file = session.end_profiling() #推理结束后结束日志

首先我们需要对推理速度进行一个基本测试,在对代码进行多段time.time()插入计时后,如果我们需要具体看ONNX每层计算的时间,则需要使用它提供的profiling功能,方法很简单,先把开关打开然后在推理结束后终止记录,就会在同一目录下生成onnxruntime_profile_XXXX-XX-XX_XX-XX-XX.json文件。结果如下:
在这里插入图片描述
可以看到瓶颈就是在推理这里,用了9.37s,那么到底是什么算子会如此耗时呢?我们用以下代码查看json文件:

import jsonwith open('onnxruntime_profile__2023-03-02_10-23-47.json', "r") as f:sess_time = json.load(f)
l = sorted(sess_time, key=lambda k: k['dur'], reverse=True)
per = 0
total = l[0]['dur']
for x in l[2:52]:print(x['dur'])#打印持续时间print(x['args'])#打印具体参数per+=x['dur']
print(f'Top50 total is {per/total*100:.2f}%')

这段代码能打印前五十[2:52]最耗时间的算子,并且给出占比。需要注意的是前两个指的是总共时间,所以这里把它排除了,结果如下:

在这里插入图片描述
注意到无一例外全都是可恶的Conv层,卷积是真的耗时啊。

然后我们再跑一次,这次看看硬件使用率如何:
在这里插入图片描述
在卷积层这么耗时的情况下, cpu竟然在偷懒!

2.解决CPU偷懒的问题
在前面那段代码上继续加一个选项,把使用线程数调到4,我这个cpu是2核4线程,那就把它吃满!狠狠的用看看有没有提升:

options.intra_op_num_threads = 4

现在已经吃满了:

在这里插入图片描述
效果如下:

在这里插入图片描述

提升效果明显啊,提升了1s左右。9.3->7.7。

3.关闭ONNXRUNTIME本身的优化

options.graph_optimization_level = ort.GraphOptimizationLevel.ORT_DISABLE_ALL

默认是全部开启优化的,我们把它关掉,发现性能反而提升了:

在这里插入图片描述
7.7->7.0,又快了0.7s。在经过后面GPU上的测试后发现该优化对gpu有一丁点的加速作用,对cpu来说反而是副作用。

4.固定尺寸+量化前预处理
这里假设我们已经对图片缩放到了1280x720分辨率。
先以1,720,1280,3的输入向量固定尺寸:

python -m onnxruntime.tools.make_dynamic_shape_fixed --input_name xxx --input_shape 1,720,1280,3

再进行量化前预处理,即尺寸推断和优化处理:

python -m onnxruntime.quantization.preprocess --input xxx.onnx --output xxx_preprocessed.onnx

再拿去跑一遍,发现又快了不少:
在这里插入图片描述
从7.0s快到了约6s,又提升1s。

总结

本例中,我们使用一些技巧成功使破烂cpu的推理速度加快了3s,得到了33%的性能提升,尽管提升看起来可能不够大,但在批量图片的生成过程中这就意味着节省几个小时。个人而言,我是非常希望所有的AI模型能以极低的代价和良好的性能为标准,推进AI模型的快速落地和普及,真正使一般大众都能玩起来,打破技术垄断。

备注

改变opset_version和量化也有可能提升性能,但在本例中均不明显,且量化后反而性能负提升。考虑到有人可能需要,在这里放两个链接:
改变opset_version
量化模型至int8

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_76274.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

6款yyds的可视化搭建开源项目

之前我一直在研究低代码可视化相关的技术和产品, 也主导过很多可视化搭建项目, 主要目的是降低企业研发成本和缩短产品交付周期, 随着互联网技术的发展也陆陆续续有很多优秀的技术产品问世, 接下来我就和大家分享几款非常有价值的可视化搭建项目, 助力企业数字化转型. 1. Form…

轻松搞懂Linux中的用户管理

文章目录概念用户账户用户组用户权限用户管理工具概念 用户管理是Linux系统管理员必须掌握的重要技能之一。Linux系统是一个多用户操作系统,可以支持多个用户同时使用,每个用户拥有自己的账户和权限,因此管理员需要了解如何创建、管理和删除…

一篇文章帮助你初步了解CDN内容分发网络

文章目录CDN内容分发网络CDN内容分发网络的工作原理CDN的作用CDN如何实现内容的加速CDN内容分发网络 CDN(Content Delivery Network)内容分发网络。CDN 是构建在现有网络基础之上的智能虚拟网络,依靠部署在各地的边缘服务器,通过…

lambada表达式

负壹、 函数式编程 Java为什么要支持函数式编程? 代码简洁 函数式编程写出的代码简洁且意图明确,使用stream接口让你从此告别for循环。 多核友好 Java函数式编程使得编写并行程序从未如此简单,你需要的全部就是调用一下parallel()方法。 Jav…

【干货】又是一年跳槽季!Nginx 10道核心面试题及解析

Nginx是一款轻量级的高性能Web服务器和反向代理服务器,由俄罗斯的Igor Sysoev开发。它具有占用资源少、高并发、稳定性高等优点,被广泛应用于互联网领域。在Nginx的面试过程中,面试官通常会提出一些核心问题,本文将介绍一些常见的…

【STM32】cmsis-dap调试器-OpenOCD功能集成进CubeIDE中

前言 被自己买的Jlink真是要整烦了 一下连不上,一下固件掉升级,一下说是D版不给调试 于是乎决定,我买了个CMSIS-DAP调试器,决定放弃JLink这等#$%^&货… CMSIS-DAP 调试器 这个是开源调试器,硬件软件开源&#x…

学习笔记-架构的演进之服务容错策略-服务发现-3月day01

文章目录前言服务容错容错策略附前言 “容错性设计”(Design for Failure)是微服务的一个核心原则。 使用微服务架构,拆分出的服务越来越多,也逐渐导致以下问题: 某一个服务的崩溃,会导致所有用到这个服务…

离线安装samba与配置(.tar方式安装)

一、samba离线安装【安装并设置成功后,相关文件及其位置:①smbd:/usr/local/samba/sbin/smbd②nmdb:/usr/local/samba/sbin/nmbd③配置文件 smb.conf:/usr/local/samba/lib/smb.conf④添加用户的 smbpasswd 文件&#…

关于小程序内存在违规内容的处理警告

遇到了问题,就记录一下解决过程吧 小程序涉及提供在线观看视频服务,请补充文娱-视频广场类目; 我们的小程序做了一个类似抖音上下滑动观看视频的页面,被警告了,查看了文档, https://developers.weixin.qq.…

Python常用标准库-os库一文详解(一):目录操作

目录 前言 目录操作 1.1获取当前目录 获取当前工作目录(绝对路径) 获取当前工作目录(绝对路径) 获取当前目录 获取当前目录的上级目录 1.2创建目录 1.3删除目录 1.4重命名目录 1.5切换目录 1.6获取目录下的文件内容 1.7判断目录是否存在 1.8判断是否是目录 1.9判断是否是绝…

如何成为一款好的低代码平台?

目录 一、一款好的低代码平台应该是什么样的? 二、低代码核心能力 01、全栈可视化编程: 02、全生命周期管理: 03、低代码扩展能力: 三、小结 一、一款好的低代码平台应该是什么样的? 从企业角度来说&#xff0c…

(五十六)针对主键之外的字段建立的二级索引,又是如何运作的?

上一次我们已经给大家彻底讲透了聚簇索引这个东西,其实聚簇索引就是innodb存储引擎默认给我们创建的一套基于主键的索引结构,而且我们表里的数据就是直接放在聚簇索引里的,作为叶子节点的数据页,如下图。 而且我们现在也对基于主键…

物理机不能访问虚拟机kali的web服务解决方案记录

目录 环境 问题描述 解决方案 知识补充 效果测试 其他思路 环境 kali(nat模式),物理机,可互ping 问题描述 kali的web服务器不能在物理机上访问。 1.本机能ping通虚拟机 2.虚拟机也能ping通本机 3.虚拟机能访问自己的web …

开源的 OA 办公系统 — 勾股 OA 4.3.01 发布

勾股 OA 办公系统是一款简单实用的开源的企业办公系统。系统集成了系统设置、人事管理、行政管理、消息管理、企业公告、知识库、审批流程设置、办公审批、日常办公、财务管理、客户管理、合同管理、项目管理、任务管理等功能模块。系统简约,易于功能扩展&#xff0…

Python抓取数据具体流程

之前看了一段有关爬虫的网课深有启发,于是自己也尝试着如如何过去爬虫百科“python”词条等相关页面的整个过程记录下来,方便后期其他人一起来学习。 抓取策略 确定目标:重要的是先确定需要抓取的网站具体的那些部分,下面实例是…

tensorflow1.14.0安装教程--保姆级

//方法不止一种,下面仅展示一种。 注:本人电脑为win11,anaconda的python版本为3.9,但tensorflow需要python版本为3.7,所以下面主要阐述将python版本改为3.7后的安装过程以及常遇到的问题。 1.首先电脑安装好anaconda…

从安卓系统USB升级包里提取system.img、boot.img和recovery.img在内的镜像文件

1.前言 如果你拿到一个USB升级包,你会发现升级包的结构基本相似。 但是里面并不是直接就有包括system.img、boot.img和recovery.img在内的镜像文件。 如果我们需要在Android手机上获取Magisk。提取内核(boot.img)就至关重要。当然其他镜像根…

玩转qsort——“C”

各位CSDN的uu们你们好呀,今天小雅兰的内容还是我们的深度剖析指针呀,上篇博客我们学习了回调函数这个知识点,但是没有写完,因为:小雅兰觉得qsort值得单独写出来!!!好啦,就…

java异常分类和finally代码块中return语句的影响

首先看一下java中异常相关类的继承关系: 引用 1、分类 异常可以分为受查异常和非受查异常,Error和RuntimeException及其所有的子类都是非受查异常,其他的是受查异常。 两者的区别主要在: 受检的异常是由编译器(编译…

小家电品牌私域增长解决方案来了

小家电品牌的私域优势 01、行业线上化发展程度高 相对于大家电动辄上千上万元的价格,小家电的客单价较低。而且与大家电偏刚需属性不同的是,小家电的消费需求侧重场景化,用户希望通过购买小家电来提高自身的生活品质。这就决定了用户的决策…