第二门课:改善深层神经网络<超参数调试、正则化及优化>-优化算法

news/2024/4/16 16:47:33/文章来源:https://blog.csdn.net/qq_43501462/article/details/136568069

文章目录

  • 1 Mini-batch梯度下降
  • 2 理解Mini-batch梯度下降法
  • 3 指数加权平均数
  • 4 理解指数加权平均数
  • 5 指数加权平均的偏差修正
  • 7 RMSprop<均方根传播>
  • 8 Adam优化算法<Momentum与RMSprop结合>
  • 9 学习率衰减
  • 10 局部最优的问题

1 Mini-batch梯度下降

Batch梯度下降法:即使之前讲的梯度下降法,需要同时处理整个训练集,能够同时看到整个batch训练集的样本被处理。
Mini-batch梯度下降法:每次处理单个mini-batch的训练子集。
在这里插入图片描述
我们将每一个mini-batch记为X{t},维度是(n_x,1000),对应每个mini-batch的输出记为Y{t},维度是(1,1000)
x(i)是第i个训练样本。
z[l]表示神经网络中第l层的z值,
X{t}来代表不同的mini-batch

2 理解Mini-batch梯度下降法

在这里插入图片描述
mini-batch 梯度下降,每次迭代后 cost 不一定是下降的,因为每次迭代都在训练不同的样本子集,但总体趋势应该是下降的。
mini-batch 的 size 大小<两种极端情况>:
大小 = m,就是batch梯度下降法
大小 = 1,就是随机梯度下降法
在这里插入图片描述

3 指数加权平均数

在这里插入图片描述

高值β,得到的曲线更平坦一些,因为多平均了几天的温度,所以曲线波动更小、更平坦,缺点是曲线进一步右移。
在这里插入图片描述

4 理解指数加权平均数

在这里插入图片描述

5 指数加权平均的偏差修正

在这里插入图片描述

v2根据指数加权平均公式得到v2=0.98v1+0.02\theta2,将v1代入得v2=0.0196 \theta1+0.02 \theta2
偏差修正可以帮助更好的预测温度,即从紫线变为绿线
2.2.6 动量梯度下降法
在这里插入图片描述

动量梯度下降法基本思想是计算梯度的指数加权平均数,并利用该梯度来更新权重。
在以上几个导数中,发现动量梯度下降法的本质是纵轴上的摆动平均值接近于0,但在横轴方向,所有的微分都指向横轴方向,因此横轴方向的平均值仍然较大。即纵轴方向摆动变小了,横轴方向运动更快。
在这里插入图片描述

7 RMSprop<均方根传播>

在这里插入图片描述
在这里插入图片描述

注:(dW)2
纵轴上的更新要被一个较大的数相除,就能消除摆动,而水平方向的更新则被较小的数相除。最终得到的更新会变成绿色线。
\varepsilon=10−8 保证分母不为 0
RMSprop 跟 Momentum 有很相似的一点,可以消除梯度下降和mini-batch梯度下降中的摆动,并允许你使用一个更大的学习率,从而加快你的算法学习速度。<不会偏离方向>

8 Adam优化算法<Momentum与RMSprop结合>

在这里插入图片描述
在这里插入图片描述
注:Momentum以及RMSprop两种都需要进行偏差修正。

9 学习率衰减

加快学习算法的一个办法就是随时间慢慢减少学习率,将之称为学习率衰减。
在这里插入图片描述

慢慢减少 学习率 的本质在于,在学习初期,使用较大的步伐,开始收敛的时候,用小一些的学习率能让步伐小一些。
在这里插入图片描述

decayrate:衰减率 epoch-num:代数
除了这个学习率衰减公式,人们还会用其他公式
在这里插入图片描述

<t为mini-batch的数字>

10 局部最优的问题

通常梯度为0的点并不是图中局部最优点,实际上成本函数的零梯度点,通常是鞍点。
在这里插入图片描述

高维度空间中,我们不太可能遇见(概率很低)如上图所示的局部最优点,因为需要这么多的维度方向上都梯度为 0(概率很低),所以更有可能遇到的是鞍点

在这里插入图片描述

其中存在平稳段,平稳段会减缓学习,平稳段是一块区域,其中导数长时间接近于0,平稳段学习十分缓慢,要很长时间才能走出平稳段。此时Momentum、RMSprop以及Adam优化算法能够加快速度,尽早往下走出平稳段。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_999341.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

win11本地账户登录密码忘了

第一个方法&#xff1a;没有权限&#xff08;可以研究下如何拿到权限&#xff0c;我后来没研究&#xff09; 第二个办法解决问题&#xff1a; 参考这个图&#xff1a; 步骤&#xff1a; 0.背景描述&#xff1a;我wly_yxx的账户&#xff08;类型是管理员&#xff09;知道pin可…

eclipse搭建java web项目

准备条件 eclipsejdk1.8 &#xff08;配置jdk环境&#xff09;apache-tomcat-8.5.97&#xff08;记住安装位置&#xff09; 一 点击完成 开始创建javaweb项目 import java.io.IOException; import java.io.PrintWriter;import javax.servlet.ServletException; import javax.s…

数据库系统概念(第一周)

⚽前言 &#x1f3d0;四个基本概念 一、数据 定义 种类 特点 二、数据库 三、数据库管理系统&#xff08;DBMS&#xff09; 四、 数据库系统&#xff08;DBS&#xff09; &#x1f3c0;数据库系统和文件系统对比 文件系统的弊端 &#x1f94e;数据视图 数据抽象 …

开源模型应用落地-工具使用篇-Spring AI-高阶用法(九)

一、前言 通过“开源模型应用落地-工具使用篇-Spring AI-Function Call&#xff08;八&#xff09;-CSDN博客”文章的学习&#xff0c;已经掌握了如何通过Spring AI集成OpenAI以及如何进行function call的调用&#xff0c;现在将进一步学习Spring AI更高阶的用法&#xff0c;如…

排序——选择排序

基本思想 每一趟在待排序元素中选取关键字最小的元素加入有序子序列。 算法代码 #include <iostream> using namespace std;//选择排序 void SelectSort(int nums[],int n){int i,j,min;for(i0;i<n-1;i){ //一共需要进行 n-1 趟 mini; //记录最小元素的下…

python导出数据到sqlite中

import sqlite3# 数据 data [{username: 张三, age: 33, score: 13},{username: 李四, age: 44, score: 14},{username: 王五, age: 55, score: 15}, ]# 连接SQLite数据库&#xff08;如果不存在则创建&#xff09; conn sqlite3.connect(test.db)# 创建游标对象 cursor con…

云服务器实例重启后,各个微服务的接口(涉及mysql操作的)都用不了了

问题描述&#xff1a; 云服务器被黑客植入挖矿。重启云服务器实例后得到解决&#xff0c;接着把docker&#xff08;zookeeper、redis啥的&#xff09;还有后端jar包啥的都重启了&#xff0c;然后发现后端接口访问不了&#xff0c;只有不涉及数据库操作的接口正常访问&#xff…

一篇论文回顾 Sora 文生视频技术的背景、技术和应用。

一篇论文回顾 Sora 文生视频技术的背景、技术和应用。 追赶 Sora&#xff0c;成为了很多科技公司当下阶段的新目标。研究者们好奇的是&#xff1a;Sora 是如何被 OpenAI 发掘出来的&#xff1f;未来又有哪些演进和应用方向&#xff1f; Sora 的技术报告披露了一些技术细节&…

【论文精读】融合知识图谱和语义匹配的医疗问答系统

&#x1f497;&#x1f497;&#x1f497;欢迎来到我的博客&#xff0c;你将找到有关如何使用技术解决问题的文章&#xff0c;也会找到某个技术的学习路线。无论你是何种职业&#xff0c;我都希望我的博客对你有所帮助。最后不要忘记订阅我的博客以获取最新文章&#xff0c;也欢…

Java零基础-数组的初始化

哈喽&#xff0c;各位小伙伴们&#xff0c;你们好呀&#xff0c;我是喵手。 今天我要给大家分享一些自己日常学习到的一些知识点&#xff0c;并以文字的形式跟大家一起交流&#xff0c;互相学习&#xff0c;一个人虽可以走的更快&#xff0c;但一群人可以走的更远。 我是一名后…

深度学习与机器学习:互补共进,共绘人工智能宏伟蓝图

在人工智能的广阔天地中&#xff0c;深度学习与机器学习如同两支强大的队伍&#xff0c;各自闪耀着独特的光芒&#xff0c;却又携手共进&#xff0c;共同书写着智能的辉煌篇章。尽管深度学习是机器学习的一个分支&#xff0c;但它们在模型构建、特征提取以及应用场景等多个方面…

FFmpeg--FLV格式

文章目录 FLV组成&#xff1a;字段信息flv headertag headeraduio tag datavideo tag data FLV组成&#xff1a; 一种流媒体格式, 当前主流的视频网站基本都支持FLV格式封装&#xff0c;文件后缀为.flv Previous Tag Size 大小为4个字节&#xff0c;内容为前面一个Tag字节大小…

2024 MCM数学建模美赛2024年A题复盘,思路与经验分享:资源可用性与性别比例 | 七鳃鳗性别比例变化对七鳃鳗种群的影响(三)

目录 分析题目 建立模型 计算结果 分析结果 代码 分析题目 对于第二问&#xff1a;探究七鳃鳗性别比例变化对七鳃鳗种群的影响。我们来分析一下题目。 要探究七鳃鳗性别比例变化对七鳃鳗种群的影响&#xff0c;我们就要搞清楚性别平衡时&#xff0c;它的种群多大&#x…

YUNBEE云贝:3月9日-PostgreSQL中级工程师PGCE认证培训

课程介绍 根据学员建议和市场需求,规划和设计了《PostgreSQL CE 认证课程》,本课程以内部原理、实践实战为主&#xff0c;理论与实践相结合。课程包含PG 简介、安装使用、服务管理、体系结构等基础知识。同时结合一线实战案例&#xff0c; 面向 PG 数据库的日常维护管理、服务和…

HTML5 基础1

<b> 和 <strong>的异同 相同点&#xff1a;在显示上&#xff0c;这两个标签都是加粗文本。 不同点&#xff1a;使用网页阅读器阅读网页&#xff08;盲人使用&#xff09;&#xff0c;strong 会重读&#xff0c;b 则不会。从起源上来说&#xff0c;strong 是为了在…

Spring Boot中SQL语句报错

报错原因&#xff1a; You have an error in your SQL syntax 你的SQL语句出现错误 报错位置&#xff1a; check the manual that corresponds to your MySQL server version for the right syntax to use near :/sql/schema.sql.t_film at line 1 在:/sql/schema.sql附近使用…

Logseq电脑端+安卓端同步gitee或github

文章目录 0.初衷1.电脑端1.1 新建仓库1.2 克隆项目&#xff0c;生成秘钥1.3 添加图谱&#xff0c;选择文件目录&#xff0c;我是原本就有笔记&#xff0c;所以会如下所示。1.4 下载脚本文件1.5赋权限 &#xff08;windows可跳过&#xff09;1.6 修改脚本命令1.7 logseq设置同步…

六、长短时记忆网络语言模型(LSTM)

为了解决深度神经网络中的梯度消失问题&#xff0c;提出了一种特殊的RNN模型——长短期记忆网络&#xff08;Long Short-Term Memory networks, LSTM&#xff09;&#xff0c;能够有效的传递和表达长时间序列中的信息并且不会导致长时间前的有用信息被忽略。 长短时记忆网络原理…

图机器学习(4)-面向连接层面的人工特征工程

0 问题定义 通过已经连接去猜未知连接&#xff1a; 有两个思路&#xff1a; &#xff08;1&#xff09;直接提取link的特征&#xff0c;把link变成D维向量&#xff1b; &#xff08;2&#xff09;把link两端节点的D维向量拼在一起&#xff0c;缺点&#xff1a;丢失了link本身…

盲盒抽卡机小程序——开启神秘之旅!

亲爱的朋友们&#xff0c;欢迎来到盲盒抽卡机小程序&#xff01;这里&#xff0c;是一个充满神秘与惊喜的世界&#xff0c;让你随时随地体验抽卡的乐趣。在这里&#xff0c;你可以轻松尝试各种盲盒&#xff0c;发现隐藏的宝藏&#xff0c;感受心跳加速的刺激。 【丰富多样的盲…