深度学习架构(CNN、RNN、GAN、Transformers、编码器-解码器架构)的友好介绍。

news/2024/5/6 13:44:14/文章来源:https://blog.csdn.net/gongdiwudu/article/details/137591689

一、说明

        本博客旨在对涉及卷积神经网络 (CNN)、递归神经网络 (RNN)、生成对抗网络 (GAN)、转换器和编码器-解码器架构的深度学习架构进行友好介绍。让我们开始吧!!

二、卷积神经网络 (CNN)

        卷积神经网络 (CNN) 是一种人工神经网络,旨在处理和分析具有网格状拓扑结构的数据,例如图像和视频。将 CNN 想象成一个多层过滤器,它处理图像以提取有意义的特征并做出预测。

        想象一下,你有一张手写数字的照片,你希望计算机能够识别这个数字。CNN 的工作原理是在图像上应用一系列滤镜,逐渐提取越来越复杂的特征。第一个过滤器检测简单的特征,如边缘和线条,而后面的过滤器检测更复杂的图案,如形状和数字。

        卷积神经网络

        CNN 的层可分为三种主要类型:卷积层、池化层和全连接层。

  1. 卷积层:这些层将过滤器(也称为内核)应用于图像。每个滤镜在图像上滑动,计算滤镜和它所覆盖的像素之间的点积。此过程将生成一个新的特征图,该特征图突出显示了图像中的特定模式。使用不同的滤镜多次重复该过程,创建一组捕获图像不同方面的特征图。
  2. 池化图层:池化图层对特征图执行下采样操作,在保留重要要素的同时减小数据的空间维度。这有助于降低计算复杂性并防止过拟合。最常见的池化类型是最大池化,它从一小块像素邻域中选择最大值。
  3. 全连接层:这些层类似于传统神经网络中的层。它们将一层中的每个神经元连接到下一层中的每个神经元。卷积层和池化层的输出被展平化并通过一个或多个完全连接的层,允许网络做出最终预测,例如识别图像中的数字。

        总之,CNN 是一种神经网络,旨在处理类似网格的数据,例如图像。它的工作原理是将一系列过滤器或内核应用于图像,逐渐提取更复杂的特征。然后,输出通过池化层传递,以减小空间维度并防止过拟合。最后,输出通过全连接层进行最终预测。

三、递归神经网络 (RNN)

        递归神经网络 (RNN) 是一种人工神经网络,旨在处理顺序数据,例如时间序列、语音和自然语言。将RNN想象成一条传送带,一次处理一个元素的信息,使其能够“记住”来自先前元素的信息,从而对下一个元素进行预测。

        想象一下,你有一个单词序列,你希望计算机生成序列中的下一个单词。RNN 的工作原理是处理序列中的每个单词,一次一个,并使用来自前一个单词的信息来预测下一个单词。

        RNN 的关键组件是循环连接,它允许信息从一个时间步流向下一个时间步。递归连接是神经元内的一种连接,它“记住”了前一个时间步的信息。

RNN系列

RNN 可分为三个主要部分:输入层、循环层和输出层。

  1. 输入层:输入层在每个时间步长接收信息,例如序列中的一个单词。
  2. 递归层:递归层处理来自输入层的信息,使用递归连接来“记住”以前时间步长中的信息。循环层包含一组神经元,每个神经元都与自身建立循环连接,并在当前时间步长与输入建立连接。
  3. 输出层:输出层根据循环层处理的信息生成预测。在生成序列中的下一个单词的情况下,输出层将预测最有可能跟随序列中前一个单词的单词。

        总之,RNN 是一种旨在处理顺序数据的神经网络。它的工作原理是一次处理一个元素的信息,使用循环连接来“记住”来自先前元素的信息。递归层允许网络处理整个序列,使其非常适合语言翻译、语音识别和时间序列预测等任务。

四、生成对抗网络 (GAN)

        生成对抗网络 (GAN) 是一种深度学习架构,它使用两个神经网络(一个生成器和一个鉴别器)来创建新的、真实的数据。将 GAN 想象成两个对立的艺术家,一个创作假艺术,另一个试图区分真假。

        GAN 的目标是在各个领域(例如图像、音频和文本)生成高质量、逼真的数据样本。生成器网络创建新样本,而鉴别器网络评估生成样本的真实性。这两个网络以对抗的方式同时进行训练,生成器试图产生更真实的样本,而鉴别器则在检测假货方面变得更好。

赣语

GAN的两个主要组成部分是:

  1. 发电机: 发电机网络负责创建新样本。它以随机噪声向量作为输入并生成输出样本,例如图像或句子。生成器经过训练,通过最小化损失函数来生成更真实的样本,该损失函数测量生成的样本与真实数据之间的差异。
  2. 鉴别器:鉴别器网络评估生成样本的真实性。它以样本作为输入并输出一个概率,指示样本是真的还是假的。鉴别器经过训练,通过最大化损失函数来区分真实样本和虚假样本,该损失函数测量真实样本和生成样本之间的概率差异。

        GAN的对抗性源于生成器和鉴别器之间的竞争。生成器试图生成更真实的样本来欺骗鉴别器,而鉴别器则试图提高其区分真实样本和假样本的能力。这个过程一直持续到生成器生成高质量、逼真的数据,这些数据不容易与真实数据区分开来。

        总之,GAN是一种深度学习架构,它使用两个神经网络(一个生成器和一个判别器)来创建新的、真实的数据。生成器创建新样本,鉴别器评估其真实性。这两个网络以对抗方式进行训练,生成器产生更真实的样本,鉴别器提高其检测假货的能力。GAN 在各个领域都有应用,例如图像和视频生成、音乐合成和文本到图像合成。

五、变形金刚

        Transformer 是一种神经网络架构,广泛用于自然语言处理 (NLP) 任务,例如翻译、文本分类和问答。它们在 2017 年由 Vaswani 等人发表的开创性论文“Attention Is All You Need”中介绍。

        将转换器想象成一种复杂的语言模型,它通过将文本分解成更小的部分并分析它们之间的关系来处理文本。然后,该模型可以对各种查询生成连贯且流畅的响应。

        变压器由几个重复模块组成,称为层。每层包含两个主要组件:

  1. 自注意力机制:自注意力机制允许模型分析输入文本不同部分之间的关系。它的工作原理是为输入序列中的每个单词分配一个权重,表明其与当前上下文的相关性。这使得模型能够专注于重要的单词,而淡化不太相关的单词的重要性。
  2. 前馈神经网络:前馈神经网络是处理自注意力机制输出的多层感知器。他们负责学习输入文本中单词之间的复杂关系。

        变压器

        转换器的关键创新是使用自注意力机制,它允许模型有效地处理长序列的文本,而无需昂贵的循环或卷积操作。这使得转换器在计算上高效且适用于各种 NLP 任务。

        简单来说,转换器是一种强大的神经网络架构,专为自然语言处理任务而设计。他们通过将文本分解成更小的部分并通过自我注意力机制分析它们之间的关系来处理文本。这允许模型对各种查询生成连贯且流畅的响应。

六、编码器-解码器体系结构

        编码器-解码器架构在自然语言处理 (NLP) 任务中很受欢迎。它们通常用于序列到序列问题,例如机器翻译,其目标是将一种语言(源)的输入文本转换为另一种语言(目标)的相应文本。

        想象一下,编码器-解码器架构就像一个翻译器,他听一个用外语说话的人,同时将其翻译成听众的母语。

        编码器-解码器架构

        该体系结构由两个主要组件组成:

  1. 编码器:编码器获取输入序列(源文本)并按顺序进行处理,生成紧凑的表示形式,通常称为“上下文向量”或“上下文嵌入”。此表示形式汇总了输入序列,并包含有关其语法、语义和上下文的信息。编码器可以是递归神经网络 (RNN) 或转换器,具体取决于特定任务和实现。
  2. 译码器:解码器获取编码器生成的上下文向量,并一次生成一个元素的输出序列(目标文本)。解码器通常是循环神经网络或转换器,类似于编码器。它通过根据前一个单词和上下文向量中包含的信息预测目标序列中的下一个单词来生成输出序列。

        在训练过程中,解码器接收真正的目标序列,其目标是预测序列中的下一个单词。在推理期间(当模型生成响应时),解码器接收到该点之前生成的文本,并使用它来预测下一个单词。

        总之,编码器-解码器架构是自然语言处理任务中的一种流行方法,特别是对于机器翻译等序列到序列问题。该体系结构由一个编码器和一个解码器组成,前者处理输入序列并生成紧凑的表示,后者基于此表示生成输出序列。这允许模型将一种语言的输入文本转换为另一种语言的相应文本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_1045912.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【动手学深度学习】15_汉诺塔问题

注: 本系列仅为个人学习笔记,学习内容为《算法小讲堂》(视频传送门),通俗易懂适合编程入门小白,需要具备python语言基础,本人小白,如内容有误感谢您的批评指正 汉诺塔(To…

c/c++ |游戏后端开发之skynet

作者眼中的skynet 有一点要说明的是,云风至始也没有公开说skynet专门为游戏开发,换句话,skynet 引擎也可以用于web 开发 贴贴我的笔记 skynet 核心解决什么问题 愿景:游戏服务器能够充分利用多核优势,将不同的业务放在…

【随笔】Git 高级篇 -- 本地栈式提交 rebase | cherry-pick(十七)

💌 所属专栏:【Git】 😀 作  者:我是夜阑的狗🐶 🚀 个人简介:一个正在努力学技术的CV工程师,专注基础和实战分享 ,欢迎咨询! 💖 欢迎大…

QT Creator概览

🐌博主主页:🐌​倔强的大蜗牛🐌​ 📚专栏分类:QT❤️感谢大家点赞👍收藏⭐评论✍️ 目录 一、Qt Creator 概览 ①:菜单栏 ②:模式选择 ③:构建套件选择器…

在图片上画出mask和pred

画出论文中《Variance-aware attention U-Net for multi-organ segmentation》的图1,也就是在原图上画出mask和pred的位置。 新建一个文件夹 然后运行代码: import cv2 import os from os.path import splitext####第一次:把GT&#xff08…

天书奇谈_源码_搭建架设_3D最新天启版_自带假人

本教程仅限学习使用,禁止商用,一切后果与本人无关,此声明具有法律效应!!!! 一. 效果演示 天书奇谈_源码_搭建架设 环境: centos7.6 , 放开所有端口 源码获取 https://…

Unity Pro 2019 for Mac:专业级游戏引擎,助力创意无限延伸!

Unity Pro 2019是一款功能强大的游戏开发引擎,其特点主要体现在以下几个方面: 强大的渲染技术:Unity Pro 2019采用了新的渲染技术,包括脚本化渲染流水线,能够轻松自定义渲染管线,通过C#代码和材料材质&…

Rust面试宝典第1题:爬楼梯

题目 小乐爬楼梯,一次只能上1级或者2级台阶。楼梯一共有n级台阶,请问总共有多少种方法可以爬上楼? 解析 这道题虽然是一道编程题,但实际上更是一道数学题,着重考察应聘者的逻辑思维能力和分析解决问题的能力。 当楼梯只…

华为2024年校招实习硬件-结构工程师机试题(四套)

华为2024年校招&实习硬件-结构工程师机试题(四套) (共四套)获取(WX: didadidadidida313,加我备注:CSDN 华为硬件结构题目,谢绝白嫖哈) 结构设计工程师,结…

HTTP与HTTPS:深度解析两种网络协议的工作原理、安全机制、性能影响与现代Web应用中的重要角色

HTTP (HyperText Transfer Protocol) 和 HTTPS (Hypertext Transfer Protocol Secure) 是互联网通信中不可或缺的两种协议,它们共同支撑了全球范围内的Web内容传输与交互。本文将深度解析HTTP与HTTPS的工作原理、安全机制、性能影响,并探讨它们在现代Web…

泰迪智能科技高职人工智能专业人才培养方案

人工智能行业近年来得到了快速发展,全球科技公司都在竞相投入人工智能的研发,从硅谷到北京,都在人工智能上取得了显著的进步。人工智能已经从学术研究转变为影响制造业、医疗保健、交通运输和零售等多个行业的关键因素。我国政策的积极推动下…

CentOS 7与MySQL 5.7.25主从复制实践

本文主要记录mysql主从复制的详细步骤,如果你还没来得及安装MySQL请参考CentOS 7实战:轻松实现MySQL 5.7.25的tar包离线安装 ProcessOn源文件地址 主从复制应用场景: 从服务器作为主服务器的实时备份主从服务器实现读写分离(主…

南京航空航天大学-考研科目-513测试技术综合 高分整理内容资料-01-单片机原理及应用分层教程-单片机有关常识部分

系列文章目录 高分整理内容资料-01-单片机原理及应用分层教程-单片机有关常识部分 文章目录 系列文章目录前言总结 前言 单片机的基础内容繁杂,有很多同学基础不是很好,对一些细节也没有很好的把握。非常推荐大家去学习一下b站上的哈工大 单片机原理及…

Java快速入门系列-9(Spring框架与Spring Boot —— 深度探索及实践指南)

第九章:Spring框架与Spring Boot —— 深度探索及实践指南 9.1 Spring框架概述9.2 Spring IoC容器9.3 Spring AOP9.4 Spring MVC9.5 Spring Data JPA/Hibernate9.6 Spring Boot快速入门与核心特性9.7 Spring Boot的自动配置与启动流程详解9.8 创建RESTful服务与数据库交互实践…

RTSP/Onvif视频安防监控平台EasyNVR调用接口返回匿名用户名和密码的原因排查

视频安防监控平台EasyNVR可支持设备通过RTSP/Onvif协议接入,并能对接入的视频流进行处理与多端分发,包括RTSP、RTMP、HTTP-FLV、WS-FLV、HLS、WebRTC等多种格式。平台拓展性强、支持二次开发与集成,可应用在景区、校园、水利、社区、工地等场…

03-JAVA设计模式-组合模式

组合模式 什么是组合模式 组合模式(Composite Pattern)允许你将对象组合成树形结构以表示“部分-整体”的层次结构,使得客户端以统一的方式处理单个对象和对象的组合。组合模式让你可以将对象组合成树形结构,并且能像单独对象一…

使用阿里云试用Elasticsearch学习:4. 聚合——2

近似聚合 如果所有的数据都在一台机器上,那么生活会容易许多。 CS201 课上教的经典算法就足够应付这些问题。如果所有的数据都在一台机器上,那么也就不需要像 Elasticsearch 这样的分布式软件了。不过一旦我们开始分布式存储数据,就需要小心…

无线网络2.4和5G的区别

无线网络2.4和5的区别 无线网络2.4GHz和5GHz的主要区别在于频率、覆盖范围、传输速度、干扰能力和穿透性。以下是详细介绍:12 频率不同。2.4GHz的频率较低,而5GHz的频率较高。频率越低,信号在传播过程中的损失越小,因此覆盖范围…

爬虫+RPC+js逆向---直接获取加密值

免责声明:本文仅做技术交流与学习,请勿用于其它违法行为;如果造成不便,请及时联系... 目录 爬虫RPCjs逆向---直接获取加密值 target网址: 抓包 下断点 找到加密函数 分析参数 RPC流程 一坨: 二坨: 运行py,拿到加密值 爬虫RPCjs逆向---直接获取加密值 target网址: 优志…

vue 上传视频

controlslist 属性可以用于告诉浏览器在视频播放过程中应该显示哪些默认的用户界面控件 代码&#xff1a; <template><div class"schematicDiagramIndex"><el-container><el-header v-if"this.radiooCar1"><el-button click&qu…