完全小白的pycharm深度学习调试+for循环断点条件设置

news/2024/4/26 0:06:41/文章来源:https://blog.csdn.net/wtyuong/article/details/129688879

完全小白的pycharm深度学习调试+for循环断点条件设置

  • 写在最前面
  • 基础方法
    • pycharm断点调试
    • 控制台输入
    • 代码中循环的debug方法
    • pycharm中图标的介绍
  • 常见的Bug
  • Debug经验
    • 1. 检查激活函数的输入值
    • 2. 检查梯度
    • 3. 消融实验
    • 4. 使用最短的时间
    • 5. 静下心来

写在最前面

之前把seq2seq+attention基础代码,从机器翻译迁移到文本摘要,再加上是自己的数据集,结果全显示截止符;
一方面可能是数据问题,一方面可能是我代码改错了,一方面可能是模型太基础了,一方面程序也没有报错;
所以排查起来很是头疼

一直尝试debug,但是百度不到类似的好方法,所以很是艰辛
今天很幸运的得到了实习的吕老师指点一二
特此记录,方便自己之后查询,也和大家分享一下,有好用的方法欢迎留言交流~

参考:https://zhuanlan.zhihu.com/p/62610785
https://blog.csdn.net/dong_liuqi/article/details/114980453

基础方法

断点调试,breakpoint。
在程序自动运行的过程中,程序只跑到你设置的断点位置处,则会中断下来,此时可以看到之前运行过的所有程序变量。

pycharm断点调试

点击行号后面区域,会出现一个红点,那个点就是设置的断点
在这里插入图片描述

下拉框选择当前.py文件后,点击小虫子图标,进入debug 模式
在这里插入图片描述
与正常的 run 去运行程序没很大差异
区别就是 pycharm 的控制台部分,从 run 跑到了 debug 显示。

并且可以显示所有的变量。
在这里插入图片描述

控制台输入

直接打印想要了解的张量or其他变量
在这里插入图片描述
将变量转为numpy,方便更直观的显示
在这里插入图片描述

命名为aa,显示在所有变量最前面(小细节太帅了)
如果是gpu跑的代码,记得加上cpu(),将数据转移到本机

aa = src.cpu().numpy()

在这里插入图片描述

前后区别对比
在这里插入图片描述
在这里插入图片描述
并且作为numpy变量,这个是实时变化的~
也可设置为监视对象

代码中循环的debug方法

想要i=3时停下来

方法一:新增判断语句,并对if的条件设置断点
在这里插入图片描述
方法二:断点右键设置条件
在这里插入图片描述
程序直接跳到i=3。简直完美

pycharm中图标的介绍

仅对常用的展开说明,其他的可通过鼠标悬停查看

一般操作步骤就是:
设置好断点,debug运行,
然后 F8单步调试,
遇到想进入的函数 F7 进去,
想出来在 shift + F8,
跳过不想看的地方,直接设置下一个断点,然后 F9 过去。

在这里插入图片描述

step over(F8快捷键):在单步执行时,在函数内遇到子函数时不会进入子函数内单步执行,而是将子函数整个执行完再停止,也就是把子函数整个作为一步。在不存在子函数的情况下是和step into效果一样的。简单的说就是,程序代码越过子函数,但子函数会执行,且不进入。
在这里插入图片描述

step into(F7快捷键):在单步执行时,遇到子函数就进入并且继续单步执行,有的会跳到源代码里面去执行。
在这里插入图片描述

step into my code(Alt+Shift+F7快捷键):在单步执行时,遇到子函数就进入并且继续单步执行,不会进入到源码中。
在这里插入图片描述

step out(Shift+F8快捷键):假如进入了一个函数体中,你看了两行代码,不想看了,跳出当前函数体内,返回到调用此函数的地方,即使用此功能即可。
在这里插入图片描述
可输入表达式,然后进行evaluate
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

Resume program(F9快捷键):继续恢复程序,直接运行到下一断点处。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

常见的Bug

深度模型的Debug与一般程序的Debug有很大的不同。
一般程序的Debug通常可以通过简单地打断点调试出来,而深度模型通常会出现程序的所有模块都可以正常跑通,但就是模型效果与正常情况相去甚远,这种Debug就非常的困难.

对于大模型来说,一处"笔误"可能也会导致很大的问题。

  1. 某一部分参数梯度总为0
    可能是程序里存在"笔误", 有一部分的参量并没有加入模型中进行运算

  2. Loss不下降
    (未完待续)

Debug经验

1. 检查激活函数的输入值

使用Relu系的激活函数时, 如果输入激活函数前的数值异常大, 那么可能导致之后的结果出现问题.

使用Sigmoid时, 如果输入激活函数前的数值远远超出了其激活范围(即[-1,1]), 也可能导致训练出现严重问题.

2. 检查梯度

检查梯度是否消失
检查梯度是否爆炸

具体方法:直接输出各个参数的梯度

def _print_grad(self, model):'''Print the grad of each layer'''for name, parms in model.named_parameters():print('-->name:', name, '-->grad_requirs:',parms.requires_grad, ' -->grad_value:',parms.grad)

先输出该层参数是否存在梯度, 再输出梯度值. 这个函数应该放在梯度反向传播计算之后, 即loss.backward()之后.

3. 消融实验

如果一个深度模型中有多个模块, 可以使用消融实验的方法对每个模块进行测试.
这样可以先定位出问题出在哪个模块里, 即缩小bug的范围.
如果每个模块都有问题, 那么则应该去检查数据输入以及训练部分是否存在问题.

⭐️ 我觉得这各方法非常重要, 因为他能帮助定位bug的范围. 其实debug最大的难点就在于确定bug的位置.

4. 使用最短的时间

如果问题不是训练本身的精度不够等问题, 可以适当调整batch size的大小来加快训练.

这样可以提高debug效率.

5. 静下心来

遇到bug首先要静下心来想问题可能出现的地方, 然后一步步去排查.

最好是能将问题以及排查结果进行记录, 这样可以更好地分析问题所在.

切忌还没有想好问题就一遍遍地跑训练, 其实这样做是非常浪费时间的.

在很多次尝试后, 都没能够将bug排除也是很有可能遇到的事情, 这时候会非常烦躁, 不利于问题的分析. 建议先去完成其他的任务, 在冷静下来后再继续进行debug(本人亲测有效, 有时甚至第二天一开始就干掉了bug).

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_274063.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

简单分析Linux内核基础篇——initcall

写过Linux驱动的人都知道module_init宏,因为它声明了一个驱动的入口函数。 除了module_init宏,你会发现在Linux内核中有许多的驱动并没有使用module_init宏来声明入口函数,而是看到了许多诸如以下的声明: static int __init qco…

C++基础算法③——排序算法(选择、冒泡附完整代码)

排序算法 1、选择排序 2、冒泡排序 1、选择排序 基本思想:从头至尾扫描序列,每一趟从待排序元素中找出最小(最大)的一个元素值,然后与第一个元素交换值,接着从剩下的元素中继续这种选择和交换方式,最终得到一个有序…

Redis(十四)【Redisson分布式锁基础介绍】

分布式锁 Redisson 一、Redisson 概述 什么是 Redisson Redisson 是一个在 Redis 的基础上实现的 Java 驻内存数据网格(In-Memory Data Grid)。它不仅提供了一系列的分布式的Java常用对象,还提供了许多分布式服务。 Redisson 的宗旨是促进使…

【数据分析之道①】字符串

文章目录专栏导读1、字符串介绍2、访问字符串中的值3、字符串拼接4、转义字符5、字符串运算符6、字符串格式化7、字符串内置函数专栏导读 ✍ 作者简介:i阿极,CSDN Python领域新星创作者,专注于分享python领域知识。 ✍ 本文录入于《数据分析之…

SpringCloud:初识RabbitMQ及快速入门

1.初识MQ 1.1.同步和异步通讯 微服务间通讯有同步和异步两种方式: 同步通讯:就像打电话,需要实时响应。 异步通讯:就像发邮件,不需要马上回复。 两种方式各有优劣,打电话可以立即得到响应,但…

每个开发人员都需要掌握的10 个基本 SQL 命令

SQL 是一种非常常见但功能强大的工具,它可以帮助从任何数据库中提取、转换和加载数据。数据查询的本质在于SQL。随着公司和组织发现自己处理的数据量迅速增加,开发人员越来越需要有效地使用数据库来处理这些数据。所以想要暗恋数据领域,SQL是…

数据挖掘(作业汇总)

目录 环境配置 实验1 数据 作业2 环境配置 实验开始前先配置环境 以实验室2023安装的版本为例: 1、安装anaconda:(anaconda自带Python,安装了anaconda就不用再安装Python了) 下载并安装 Anaconda3-2022.10-Windows-x86_64.ex…

分片压缩、分片上传,融云 IM 视频文件高速传输方案

在 IM 消息管理中,多种类型消息的传输处理是服务可靠性的关键。关注【融云全球互联网通信云】了解更多 通常,发送消息前,融云 IM 会将发送的媒体文件上传到默认文件服务器。 而在文本、表情、图片、语音、位置、小视频等各种消息中&#xf…

unity+vs code+mac环境安装配置

参考资料:unity官方文档:https://docs.unity3d.com/cn/current/Manual/ScriptingToolsIDEs.html安装unity1、打开unity中国官网下载,https://unity.cn/releases#undefined2、安装成功后,登录帐号。3、安装unity 推荐版本mac 配置C…

Matlab中对三维图进行视角观察设置——相机视线函数view

Matlab中对三维图进行视角观察设置——相机视线函数view1.view函数的功能:相机视线;2.view函数的调用语法:当我们采用matlab中的surf函数等绘制好三维图像后,想观察某个角度的图像时,可采用view函数快速多角度便捷设置…

Hive数据仓库简介

文章目录Hive数据仓库简介一、数据仓库简介1. 什么是数据仓库2. 数据仓库的结构2.1 数据源2.2 数据存储与管理2.3 OLAP服务器2.4 前端工具3. 数据仓库的数据模型3.1 星状模型3.2 雪花模型二、Hive简介1. 什么是Hive2. Hive的发展历程3. Hive的本质4. Hive的优缺点4.1 优点4.2 缺…

8个python自动化脚本提高打工人幸福感~比心~

人生苦短,我用Python 最近有许多打工人都找我说打工好难 每天都是执行许多重复的任务, 例如阅读新闻、发邮件、查看天气、打开书签、清理文件夹等等, 使用自动化脚本,就无需手动一次又一次地完成这些任务, 非常方便…

2023北京/杭州/湖南/广东CDGA/CDGP数据治理工程师认证报名

DAMA认证为数据管理专业人士提供职业目标晋升规划,彰显了职业发展里程碑及发展阶梯定义,帮助数据管理从业人士获得企业数字化转型战略下的必备职业能力,促进开展工作实践应用及实际问题解决,形成企业所需的新数字经济下的核心职业…

《Spring Boot 趣味实战课》读书笔记(四)

你有 REST Style 吗 你应该懂一点 HTTP HTTP 就是 HyperText Transfer Protocol(超文本传输协议)的缩写。 它是一种关于“传输”的协议,既然是传输,那么至少要在两个对象之间进行,在 HTTP 中对应的就是客户端和服务端…

KCon 2023兵器谱招募开启!以「兵器」会友,热血相聚!

2023第十二届 KCon大会已启动,议题招募正在火热进行中。(点击查看)与此同时,兵器谱召集也正式开启!我们现诚邀众安全研究员踊跃展示「神兵利器」,以「兵器」会友,逐鹿网络江湖。 「器」既为容纳…

联合体在内存中的分布情况,大小端的判断方法

一、联合体的定义 联合是一种特殊的自定义类型 这种类型定义的变量也包含一系列的成员,特征是这些成员公用同一块空间,所以联合体也叫共用体。 //联合类型的声明 union Un { char c; int i; }; int main() { //联合变量的定义 union U…

项目二 任务三 训练5 交换机的HSRP技术

在“项目二 任务三 训练4 交换机的DHCP技术”基础上继续完成下列操作: 1、二层交换机50-2的配置 50-2>en 50-2#conf t Enter configuration commands, one per line. End with CNTL/Z. 50-2(config)#int 50-2(config)#interface g 50-2(config)#interface gigab…

什么是队列,如何实现?

欢迎来到 Claffic 的博客 💞💞💞 “海色温柔,波浪缓慢,似乎在静静期待着新的一天。” 前言: 上期我们讲了栈,它的特点是“后入先出”。这次我们再来学习一个新的数据结构:队列&…

索尼mp4变成rsv的修复方法

索尼的摄像机在一些极端情况下(如断电)会生成RSV文件,遇到这种情况我们应该如何处理?下面来看看今天这个案例。故障文件:22.4G RSV文件故障现象:断电后仅生成了一个扩展名为rsv的文件,无法播放。故障分析:经过长时间处理索尼的摄像机&#xf…

WSO2 Apim Message Mediation (Api Policies)

WSO2 Apim Message Mediation 1. 版本区别2. 客制化2.1 Wso2 Integration Studio Install2.2 New Sequence2.3 测试