transformer 网络概述

news/2024/4/27 4:10:11/文章来源:https://blog.csdn.net/weixin_45348389/article/details/130382117

1. RNN存在的问题

  • RNN对并行计算并不友好,下一输出依赖于上一输入,难以实现并行高效计算
  • RNN相比较与self-attension模块,缺少对部分变量权重的预估,输出的数据默认拥有一致的权重

2. self-attension

self-attension是干嘛的?是为了弥补word2vec的不足,word2vec是采用统一的模式获取每个次的信息,使用的过程中忽略了在不同上下文的重要性,不同的词在不同的上下文中具有不同的重要性,但word2vec做的不好,所以使用self-attension,self-attension针对不同的上下文都做相应的计算,更灵活的获取了上下文信息。

需要三个训练矩阵, Q , K , V Q,K,V Q,K,V分别对应" query,要去查询的;key,等待被查的;value,实际特征信息"

  • Q Q Q K K K的内积表示有多匹配(内积相当于投影,相关性越大,内积越大)
  • 注意图中的 d k \boxed{\sqrt{d_{k}}} dk ,为了保证维度不会影响分支,做了一个归一化self-attension的计算过程在这里插入图片描述在这里插入图片描述

3. multi-headed多头机制

上面说到,一组 Q , K , V Q,K,V Q,K,V可以编码除一个 Z Z Z,尝试使用多组 Q , K , V Q,K,V Q,K,V生成多组 Z Z Z再做融合降维(参考卷积中的多卷积核),融合可以使用全连接的方式
在这里插入图片描述最终的流程:一组 Q , K , V Q,K,V Q,K,V是有半部分图片中的一片,多组是多片,然后concat后利用全连接行程最终的Multi-Head Attension

在这里插入图片描述

4. 其他

  • 上面说到,每个词都会考虑全局做编码,这就导致这个词不管在句子中的哪个位置,最终的编码结果都是一样的,这有悖于我们的认知,所以需要添加位置编码信息。对位置进行编码的方式有多种。
  • LayerNormalization是针对每一层进行归一化,BN是在channel方向进行的归一化,而LN是在单channel方向进行的归一化。
  • nask机制,在deconder解码的过程中,还需要将已经预测过的序列再次加入到模型中,针对当前的预测词,使用mask遮住
  • bert的理解,bert就是tranformer中的encoder模块的功能,他不需要标签数据,而是使用mask方法,就是遮住部分输入再预测被遮住的部分,还有就是通过预测两个句子是否在一起。

5. 整体架构

总体思路就是:[ 编码(QKV+Pose)+输出(编码)] + 解码 + 输出,总体见下图(图源水印)
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_103902.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2023年商票研究报告

第一章 行业概况 1.1 定义 商票是指出票人依托商业汇票系统,以数据电文形式制作的,委托付款人在指定日期无条件支付确定的金额给收款人或者持票人的票据。按承兑人的不同,商业汇票分为银行承兑汇票和商业承兑汇票(即商票&#x…

Linux进程(1)

目录 ⛹🏽进程简介⛹🏽查看进程⛹🏽系统调用🚴🏽获取进程标示符🚴🏽创建进程 ⛹🏽进程状态🚴🏽孤儿进程:🚴🏽进程优先级 ⛹…

新一代边缘计算盒子,英码科技边缘计算盒子SY-E160

SY-E160 是英码科技推出的新一代智能工作站,内部集成了 4 核强悍处理器 A551.5 GHz,其内置的算力核拥有 16Tops 超强算力。SY-E160 工作站采用低功耗技术设计,支持 宽温度环境工作,可以灵活部署于各种 AI 场景中。 SY-E160 深元 A…

每日一个小技巧:1招教你提取伴奏怎么做

伴奏是指在演唱或演奏时,用来衬托或补充主唱或乐器的音乐声音。而伴奏提取是一种技术,它可以帮助我们从歌曲中将人声和乐器分离出来。当我们听到一些喜欢的歌曲时,往往会被它的旋律深深吸引,想要将其作为自己的演唱曲目&#xff0…

Domino的线程ID和操作系统的进程ID对应关系

大家好,才是真的好。 很多时候,在Domino中运行的任务出现一些错误提示,如果能够准确定位到和提示信息相关任务时,对我们排错有着巨大的帮助,也能节省很多时间。 例如,我们可能在Domino实时控制台上看到以…

InstructGPT原理讲解及ChatGPT类开源项目

InstructGPT原理讲解及ChatGPT类开源项目 Generative Pre-Trained Transformer(GPT) 是OpenAI的提出的生成式预训练语言模型,目前已经发布了GPT-1、GPT-2、GPT-3和GPT-4,未来也将发布GPT-5。 最近非常火的ChatGPT是基于Instruct…

想提高应用程序的用户满意度——APK体积包优化少不了

作者:子不语Any 前言 减少应用程序安装包的大小,不仅仅减少用户的网络数据流量,还减少了下载等待的时间。毋庸置疑,尽量减少程序安装包的大小是十分有必要的。 通常来说,减少程序安装包的大小有两条规律:…

Java_常用API

Java_常用API ​ API即Application Programming Interface,即应用程序接口。一般来说API就是软件组件之间信息交互的桥梁,通过它无需访问源码。API除了有应用程序接口的含义外,还特质API的说明文档,也称为帮助文档。 1.字符串的…

Linux服务使用宝塔面板搭建网站,并发布公网访问 - 内网穿透(1)

文章目录 前言1. 环境安装2. 安装cpolar内网穿透3. 内网穿透4. 固定http地址5. 配置二级子域名6. 创建一个测试页面 转载自远程内网穿透的文章:Linux使用宝塔面板搭建网站,并内网穿透实现公网访问 前言 宝塔面板作为简单好用的服务器运维管理面板&#…

读书笔记---植物基因组学(樊龙江主编)

读书笔记---植物基因组学(樊龙江主编) 最近看了这本书,作者是樊龙江教授(浙江大学),里面主要分为两个大部分: 总论:15章 各论:10章详细目录可以参看下面链接&#xff1a…

MySQL中使用批量插入,但需要校验每条数据是否重复且是否已经存在数据库中

问题 批量插入一组数据,数据库中name和age字段组合起来不能有重复,如果出现重复,则直接跳过不插入。 name和age字段组合起来不重复,要求如下: 解决方法 建立name和age的复合索引,并设置为唯一索引 场景…

数列分段 马蹄集

数列分段 难度:黄金 0时间限制:1秒 巴占用内存:128M 对于给定的一个长度为N的正整数数列A,,现要将其分成连续的若干段, 并且每段和不超过M(可以等于M),问最少能将其分成多少段使得满足 要求。 格式 输入格式:第一行包含…

基于Java开发的分布式在线教育系统,支持考试、直播、问答

一、开源项目简介 知道学习平台是一个基于 Java 开发的分布式在线教育系统项目采用前后端分离的企业级微服务架构引入组件化的思想实现高内聚低耦合,项目代码简洁注释丰富上手容易注重代码规范,严格控制包依赖可以帮助个人、企业或机构快速搭建一个在线…

刷爆朋友圈!前百度总裁陆奇最新AI重磅演讲:我的大模型世界观

文 / 高扬 陆奇的演讲刷屏了,我认真看了他的演讲稿,收获颇丰。 陆奇提到,人类社会的发展,大致可分为:农业化、工业化和数字化三个阶段。 在三个递进的阶段中,人类一直在探索如何减少烦琐且消耗能量的体力和…

案例1:Java超市管理系统设计与实现开题报告

博主介绍:✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专…

Java文件IO操作基础

目录 前言 java.io.File 1. 构造方法 2. 方法 get类方法 文件的创建和删除 目录的创建与删除 输入输出流 InputStream FileInputStream 概述 代码实例1 代码实例2 字符集问题? Scanner 读取 OutputStream Java输入输出流的使用案例 创作不易, 多多支持😶‍&…

漫画 | Linux之父:财务自由以后,我失眠了!

前言:今年是Linux诞生的30周年! 1991年的8月, Linus在新闻组中公布了他正在开发的一个免费的操作系统,这也是以后风靡世界的Linux操作系统的雏形。 今天翻到这篇漫画,看到Linux的诞生过程,很是感慨&#x…

Unlimited “使用GPT-4 ”!它来了!

备注本文末尾附录注册登录过程 平台介绍: 聊天机器Chat.fore人front.ai是一为款基于人主工智能的题聊天的机器人主平台,旨在帮菜助企,业提可以高客户服务质是量和一效率。该平款台利用自然语精言处理技术和机器致学习的算法,能够自牛动排回答客,户的问题,提供个性化的服…

《string的模拟实现》

本文主要介绍库里面string类的模拟实现 文章目录 前言一、string的构造函数①无参的构造函数②带参的构造函数③修改构造函数 二、析构函数三、拷贝构造四、赋值重载五、返回size 、capacity和empty六、[]的运算符重载七、迭代器① 正向迭代器。② 正向const迭代器 八、string比…

接口自动化测试数据处理:技术人员必备的一项技能

目录 前言: 1.定义测试数据结构 2.从文件中加载测试数据 3.使用faker库生成随机测试数据 4.在测试用例中使用测试数据 总结: 前言: 在进行接口自动化测试时,测试数据的准备和处理是至关重要的一环。测试数据的准确性和完整性…