基于Pytorch,从头开始实现Transformer(编码器部分)

news/2024/4/20 8:16:58/文章来源:https://blog.csdn.net/liangbilin/article/details/129090817

Transformer理论部分参考知乎上的这篇文章

Transformer的Attention和Masked Attention部分参考知乎上的这篇文章

Transformer代码实现参考这篇文章,不过这篇文章多头注意力实现部分是错误的,需要注意。

完整代码放到github上了,链接


Transformer结构如下图所示:
在这里插入图片描述

(1)Self-Attention

在 Transformer 的 Encoder 中,数据首先会经过一个叫做 self-attention 的模块,得到一个加权后的特征向量 Z,这个 Z 就是论文公式1中的Attention(Q,K,V)
Attention(Q,K,V)=softmax(QKT(dk))VAttention(Q, K, V) = softmax(\frac{QK^T}{\sqrt(d_k)})VAttention(Q,K,V)=softmax((dk)QKT)V

在公式中,之所以要除以根号d_k(词向量或隐含层维度),原因有:1)防止输入softmax的数值过大,进而导致偏导数趋近于0;2)使得q*k的结果满足期望为0,方差为1,类似于归一化。可以参考这篇文章。

代码实现如下:

import torch
from torch import Tensor 
import torch.nn.functional as Fclass SelfAttention(nn.Module):def __init__(self, input_vector_dim:int, dim_k=None, dim_v=None) -> None:"""初始化SelfAttention,包含以下参数:input_vector_dim: 输入向量的维度,对应公式中的d_k。加入我们将单词编码为了10维的向量,则该值为10dim_k:矩阵W^k和W^q的维度dim_v:输出向量的维度。例如经过Attention后的输出向量,如果你想让它的维度是15,则该值为15;若不填,则取input_vector_dim,即与输入维度一致。"""super().__init__()self.input_vector_dim = input_vector_dim# 如果dim_k和dim_v是None,则取输入向量维度if dim_k is None:dim_k = input_vector_dimif dim_v is None:dim_v = input_vector_dim"""实际编写代码时,常用线性层来表示需要训练的矩阵,方便反向传播和参数更新"""self.W_q = nn.Linear(input_vector_dim, dim_k, bias=False)self.W_k = nn.Linear(input_vector_dim, dim_k, bias=False)self.W_v = nn.Linear(input_vector_dim, dim_v, bias=False)# 这个是根号下d_kself._norm_fact = 1 / np.sqrt(dim_k)def forward(self, x):""" 进行前向传播x: 输入向量,size为(batch_size, input_num, input_vector_dim)"""# 通过W_q, W_k, W_v计算出Q,K,VQ = self.W_q(x)K = self.W_k(x)V = self.W_v(x)"""permute用于变换矩阵的size中对应元素的位置即:将K的size由(batch_size, input_num, output_vector_dim) 变为 (batch_size, output_vector_dim, input_num)----0,1,2 代表各个元素的下标,即变换前 batch_size所在的位置是0,input_num所在的位置是1"""K_T = K.permute(0, 2, 1)""" bmm 是batch matrix-matrix product,即对一批矩阵进行矩阵相乘。相比于matmul,bmm不具备广播机制"""atten = nn.Softmax(dim=-1)(torch.bmm(Q, K_T) * self._norm_fact)""" 最后再乘以 V"""output = torch.bmm(atten, V)return output

上面的代码要注意 Tensor.bmm() 方法的应用。一般而言,我们输入的Q、K和V的数据形式为(Batchsize, Sequence_length, Feature_embedding),在进行矩阵乘法时,只对后两维执行。

(2)Multi-Head Attention

Multi-Head Attention 的示意图如下所示:

MultiHead(Q,K,V)=Concat(head1,...,headh)QOMultiHead(Q, K, V) = Concat(head_1, ..., head_h)Q^OMultiHead(Q,K,V)=Concat(head1,...,headh)QO
在这里插入图片描述

def attention(query:Tensor, key:Tensor, value:Tensor):""" 计算Attention的结果。这里其实传入对的是Q,K,V;而Q,K,V的计算是放在模型中的,请参考后续的MultiHeadAttention类。这里的Q,K,V有两种shape,如果是Self-Attention,shape为(batch, 词数, d_model),例如(1, 7, 128),表示batch_size为1,一句7个单词,每个单词128维但如果是Multi-Head Attention,则Shape为(batch, head数, 词数,d_model/head数),例如(1, 8, 7, 16),表示batch_size为1,8个head,一句7个单词,128/8=16。这样其实也能看出来,所谓的MultiHead其实也就是将128拆开了。在Transformer中,由于使用的是MultiHead Attention,所以Q、K、V的shape只会是第二种。"""""" 获取 d_model 的值。之所以这样可以获取,是因为 query 和输入的 shape 相同。若为Self-Attention,则最后一维都是词向量的维度,也就是 d_model 的值;若为MultiHead-Attention,则最后一维是 d_model/h,h表示head数。"""d_k = query.size(-1)# 执行QK^T / 根号下d_kscores = torch.matmul(query, key.transpose(-2, -1)) / np.sqrt(d_k)""" 执行公式中的softmax这里的 p_attn 是一个方阵;若为Self-Attention,则shape为(batch, 词数, 词数);若为MultiHead-Attention,则shape为(batch, head数, 词数, 词数)"""p_attn = scores.softmax(dim=-1)""" 最后再乘以 V.对于Self-Attention来说,结果 shape 为(batch, 词数, d_model),这也就是最终的结果了。对于MultiHead-Attention来说,结果 shape 为(batch, head数, 词数, d_model/head数)而这不是最终结果,后续还要将head合并,变为(batch, 词数, d_model)。不过这是MultiHeadAttention该做的事。"""return torch.matmul(p_attn, value)class MultiHeadAttention(nn.Module):def __init__(self, h:int, d_model:int) -> None:""" h: head数d_model: d_model数"""super().__init__()assert d_model % h == 0, "head number should be divided by d_model"self.d_k = d_model // hself.h = h# 定义W^q、W^k、W^v和W^o矩阵。self.linears = [nn.Linear(d_model, d_model),nn.Linear(d_model, d_model),nn.Linear(d_model, d_model),nn.Linear(d_model, d_model)]def forward(self, x):# 获取batch_sizebatch_size = x.size(0)""" 1. 求出Q、K、V。这里是求MultiHead的Q、K、V,所以shape为(batch, head数, 词数, d_model/head数)1.1 首先,通过定义的W^q, W^k, W^v 求出Self-Attention的Q、K、V。此时,Q、K、V的shape为(batch, 词数, d_model)对应代码为 linear(x)1.2 分为多头,即将shape由(batch, 词数, d_model)变为(batch, 词数, head数, d_model/head数)对应代码为 .view(batch_size, -1, self.h, self.d_k)1.3 最终交换 词数 和 head数 这两个维度,将head数放在前面,最终shape变为(batch, head数, 词数, d_model/head数)对应代码为 .transpose(1,2)"""query, key, value = [linear(x).view(batch_size, -1, self.h, self.d_k).transpose(1,2) for linear, x in zip(self.linears[:-1], (x, x, x))]""" 2. 求出Q、K、V后,通过Attention函数计算出Attention结果。这里x的shape为(batch, head数, 词数, d_model/head数)self.attn的shape为(batch, head数, 词数, 词数)"""x = attention(query, key, value)""" 3. 将多个head再合并起来,即将x的shape由(batch, head数, 词数, d_model/head数)再变为(batch, 词数, d_model)3.1 首先, 交换 head数 和 词数 维度,结果为 (batch, 词数, head数, d_model/head数)对应代码为"""x = x.transpose(1,2).reshape(batch_size, -1, self.h * self.d_k)""" 4. 最后,通过W^o矩阵再执行一次线性变换,得到最终结果"""return self.linears[-1](x)

(3) Positional Encoding

在构建完整的 Transformer 之前,我们还需要一个组件—— Positional Encoding。请注意:MultiHeadAttention 没有在序列维度上运行,一起都是在特征维度上进行的,因此它与序列长度和顺序无关。

我们必须向模型提供位置信息,以便它知道输入序列中数据点的相对位置。

Transformer 论文中使用三角函数对位置进行编码:

PE(pos,2i)=sin(pos/100002i/dmodel)PE_{(pos,2i)} = sin(pos / 10000^{2i/d_{model}}) PE(pos,2i)=sin(pos/100002i/dmodel)

PE(pos,2i+1)=cos(pos/100002i/dmodel)PE_{(pos,2i+1)} = cos(pos / 10000^{2i/d_{model}}) PE(pos,2i+1)=cos(pos/100002i/dmodel)

如何理解位置坐标编码? 参考这篇文章

在没有 Position embedding 的 Transformer 模型并不能捕捉序列的顺序,交换单词位置后 attention map 的对应位置数值也会进行交换,并不会产生数值变化,即没有词序信息。所以这时候想要将词序信息加入到模型中。

代码实现如下(参考这篇文章):

class PositionalEncoding(nn.Module):"""基于三角函数的位置编码"""def __init__(self, num_hiddens, dropout=0, max_len=1000):"""num_hiddens:向量长度  max_len:序列最大长度dropout"""super().__init__()self.dropout = nn.Dropout(dropout)# 创建一个足够长的P : (1, 1000, 32)self.P = torch.zeros((1, max_len, num_hiddens))# 本例中X的维度为(1000, 16)temp = torch.arange(max_len, dtype=torch.float32).reshape(-1, 1) / torch.pow(10000, torch.arange(0, num_hiddens, 2, dtype=torch.float32) / num_hiddens)self.P[:, :, 0::2] = torch.sin(temp)   #::2意为指定步长为2 为[start_index : end_index : step]省略end_index的写法self.P[:, :, 1::2] = torch.cos(temp)def forward(self, X):X = X + self.P[:, :X.shape[1], :].to(X.device)  # torch 加法存在广播机制,因此可以避免batchsize不确定的问题return self.dropout(X)

(4) Encoder

Transformer采用的是编码器-解码器结构。编码器(左)处理输入序列并返回特征向量(或存储向量);解码器(右)处理目标序列,并合并来自编码器存储器的信息。解码器的输出是我们模型的预测结果。

在这里插入图片描述
我们可以彼此独立地对编码器和解码器进行编写代码,然后将它们组合。首先,我们先构建编码器(Encoder),具体也包括下述两个步骤,先编写Encoder layer,然后编写Encoder module

(4.1)Encoder layer

首先,构建残差连接功能模块:

class Residual(nn.Module):def __init__(self, sublayer: nn.Module, d_model: int, dropout: float = 0.1):""" sublayer: Multi-Head Attention module 或者 Feed Forward module的一个.残差连接:上述两个module的输入x和module输出y相加,然后再进行归一化。"""super().__init__()self.sublayer = sublayer  self.norm = nn.LayerNorm(d_model)self.dropout = nn.Dropout(dropout)def forward(self, x: Tensor) -> Tensor:return self.norm(x + self.dropout(self.sublayer(x)))

然后,构建feed_forward功能模块:

class FeedForward(nn.Module):def __init__(self, d_model:int, hidden_num:int=2048) -> None:super().__init__()self.linear = nn.Sequential(nn.Linear(d_model, hidden_num),nn.ReLU(),nn.Linear(hidden_num, d_model))def forward(self, x):return self.linear(x)    

最后,构建Encoder layer

class TransformerEncoderLayer(nn.Module):def __init__(self, d_model: int = 512, num_heads: int = 6, dim_feedforward: int = 2048, dropout: float = 0.1, ):""" d_model: 词向量维度数num_heads: 多头注意力机制的头数dim_feedforward: feedforward 模块的隐含层神经元数"""super().__init__()""" 1. 进行多头注意力计算"""self.multi_head_attention_module = Residual(sublayer=MultiHeadAttention(h=num_heads, d_model=d_model),d_model=d_model,dropout=dropout)""" 2. 进行前馈神经网络计算"""self.feed_forward_module = Residual(sublayer=FeedForward(d_model=d_model, hidden_num=dim_feedforward),d_model=d_model,dropout=dropout)def forward(self, x:Tensor) -> Tensor:# 1. 多头注意力计算x = self.multi_head_attention_module(x)# 2. 前馈神经网络计算x = self.feed_forward_module(x)return x
(4.2) Encoder module

将残差连接、Encoder layer、feed forward功能模块拼接成为Encoder module

class TransformerEncoder(nn.Module):def __init__(self, num_layers: int = 6,d_model: int = 512, num_heads: int = 8, dim_feedforward: int = 2048, dropout: float = 0.1, max_len: int = 1000):""" Transformer 编码器num_layers: TransformerEncoderLayer 层数d_model: 词向量维度数num_heads: 多头注意力机制的头数dim_feedforward: 前馈神经网络的隐含层神经元数dropout: max_len: 三角函数位置编码的最大单词数量,需要设置超过数据集中句子单词长度"""super().__init__()""" 1. 实例化 num_layers 个TransformerEncoderLayer"""self.layers = nn.ModuleList([TransformerEncoderLayer(d_model, num_heads, dim_feedforward, dropout)for _ in range(num_layers)])""" 2. 初始化位置编码器"""self.pe = PositionalEncoding(num_hiddens=d_model, max_len=max_len)def forward(self, x: Tensor) -> Tensor:""" x: (batchsize, sequence_number, d_model),sequence_number 表示句子的单词数量,d_model表示每个词的编码维度"""""" 1. 对输入x添加位置编码信息"""x  = self.pe(x)""" 2. 逐层计算,最后输出特征提取后的values"""for layer in self.layers:x = layer(x)return x

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_72837.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

联想小新 Air-14 2019IML电脑 Hackintosh 黑苹果efi引导文件

原文来源于黑果魏叔官网,转载需注明出处。硬件型号驱动情况主板Lenovo LNVNB161216处理器Intel Core i5-10210U / i7-10510U已驱动内存8GB DDR4 2666已驱动硬盘康佳KAK0500B128(128 GB/固志硬盘)已驱动显卡Intel UHD 620Nvidia GeForce MX250(屏蔽)无法驱动声卡Cone…

轮播图、阅读注册协议、网页时钟、随机点名、小米搜索框、轮播图点击切换——web APIs练习

目录 一、获取元素(DOM) 1. 随机轮播图案例 2. 阅读注册协议(定时器间歇函数的应用) 3. 轮播图定时器版 4. 网页时钟 二、事件基础(DOM) 1. 随机点名案例 2. 轮播图点击切换(重点&#…

【计算机网络 -- 期末复习】

例题讲解 IP地址(必考知识点) 子网掩码 子网划分 第一栗: 子网划分题目的答案一般不唯一,我们主要采用下方的写法: 第二栗: 路由跳转 数据传输 CSMA/CD数据传输 2、比特率与波特率转换 四相位表示&am…

ElasticSearch 学习笔记总结(一)

文章目录一、 数据的 分类二、 ElasticSearch 介绍三、 ElasticSearch 搭建四、正排索引 和 倒排索引五、ES HTTP 索引 操作六、ES HTTP 文档 操作七、ES HTTP 查询数据1. 条件查询2. 分页查询3. 排序查询4. 多条件查询5. 全文检索 完全匹配 高亮显示6. 聚合查询八、 ES HTTP 映…

Scalable but Wasteful: Current State of Replication in the Cloud

文章目录ABSTRACT1 INTRODUCTION2 REPLICATION IN THE WILD3 CURRENT APPROACHES TO SCALING STATE MACHINE REPLICATION4 EFFICIENCY METRIC5 INEFFECTIVENESS OF CURRENT APPROACHES PER NEW METRIC6 CONCLUSION AND FUTURE DIRECTIONSABSTRACT 共识协议是部署在基于云的存储…

面试热点题:stl中vector与list的优缺点对比、以及list的迭代器与vector迭代器的区别

vector的优点 下标随机访问 vector的底层是一段连续的物理空间,所以支持随机访问尾插尾删效率高 跟数组类似,我们能够很轻易的找到最后一个元素,并完成各种操作cpu高速缓存命中率高 因为系统在底层拿空间的时候,是拿一段进cpu&am…

Linux:基于libevent读写管道代码,改进一下上一篇变成可以接收键盘输入

对上一篇进行改进&#xff0c;变成可以接收键盘输入&#xff0c;然后写入管道&#xff1a; 读端代码&#xff1a; #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <sys/types.h> #include <sys/stat.h> #include <s…

乌卡时代的云成本管理:从0到1了解FinOps

在上一篇文章中&#xff0c;我们介绍了企业云业务的成本构成以及目前面临的成本困境&#xff0c;以及当前企业逐步转向 FinOps 的行业趋势&#xff0c;这篇文章我们将详细聊聊 FinOps&#xff0c;包括概念、重要性以及成熟度评价指标。 随着对云服务和供应商的使用越来越多&…

Sms多平台短信服务商系统~完成阿里云短信服务发送可自行配置

1.项目中引入Maven 阿里云地址 不同编程语言都有对应的SDK,你们下载自己需要的即可。 pom.xml中添加maven坐标 <!--阿里云短信服务--><dependency><groupId>com.aliyun</groupId><artifactId>alibabacloud-dysmsapi20170525</artifactId>…

【UE4 制作自己的载具】1-使用3dsmax制作载具

学习谌嘉诚课程所做笔记源视频链接&#xff1a;【虚幻4】UE4雪佛兰科迈罗汽车详细制作中文教程&#xff01;&#xff08;汽车骨骼绑定驾驶、动画蓝图&#xff09;汽车模型下载链接&#xff1a;https://pan.baidu.com/s/1ZH5gaAwckzRIZ0w6n0qvIA密码&#xff1a;19sj步骤&#x…

系列五、事务

一、事务简介 1.1、定义 事务是一组操作的集合&#xff0c;它是一个不可分割的工作单位&#xff0c;事务会把所有的操作作为一个整体一起向系 统提交或撤销操作请求&#xff0c;即这些操作要么同时成功&#xff0c;要么同时失败。 例如: 张三给李四转账1000块钱&#xff0c;张…

Codeforces Round #848 (Div. 2)(A~D)

A. Flip Flop Sum给出一个只有1和-1的数组&#xff0c;修改一对相邻的数&#xff0c;将它们变为对应的相反数&#xff0c;修改完后数组的和最大是多少。思路&#xff1a;最优的情况是修改一对-1&#xff0c;其次是一个1一个-1&#xff0c;否则修改两个1。AC Code&#xff1a;#i…

2023-02-22 学习记录--TS-邂逅TS(二)

TS-邂逅TS&#xff08;二&#xff09; 不积跬步&#xff0c;无以至千里&#xff1b;不积小流&#xff0c;无以成江海。&#x1f4aa;&#x1f3fb; 一、接口&#xff08;interface&#xff09; 在 ts 中&#xff0c;子类只能继承一个父类&#xff0c;不可多继承&#xff0c;但是…

学习国家颁布的三部信息安全领域法律,理解当前工作中的信息安全合规要求

目录三部信息安全领域的法律文件三部法律的角色定位与联系三部法律的适用范围三部法律的主要履职部门三部法律条文章节结构中的共性三部法律中的一些次重点章节网络安全法的重点章节数据安全法的重点章节个人信息保护法的重点章节关于工业和信息化部行政执法项目清单三部信息安…

ChatGPT这是要抢走我的饭碗?我10年硬件设计都有点慌了

前 言 呃……问个事儿&#xff0c;听说ChatGPT能写电路设计方案了&#xff0c;能取代初级工程师了&#xff1f;那我这工程师的岗位还保得住么&#xff1f;心慌的不行&#xff0c;于是赶紧打开ChatGPT问问它。 嘿&#xff0c;还整的挺客气&#xff0c;快来看看我的职业生涯是否…

非关系型数据库(mongodb)简单使用介绍

关系型数据库与非关系型数据库 关系型数据库有mysql、oracle、db2、sql server等&#xff1b; 关系型数据库特点&#xff1a;关系紧密&#xff0c;由表组成&#xff1b; 优点&#xff1a; 易于维护&#xff0c;都是使用表结构&#xff0c;格式一致&#xff1b; sql语法通用&a…

IP地理位置定位技术原理是什么

IP地理位置定位技术的原理是基于IP地址的网络通信原理和基础上的。它利用IP地址所包含的一些信息&#xff0c;如网络前缀和地址段&#xff0c;以及ISP的IP地址归属地数据库&#xff0c;来推测IP地址所对应的地理位置。具体来说&#xff0c;IP地址是由32位二进制数字组成的&…

《计算机网络:自顶向下方法》实验2:常用网络命令的使用

使用Ping实用程序来测试计算机的网络连通性 登录到Windows中。单击开始,然后将鼠标指针移到程序上,再移到Windows系统,然后单击命令提示符。在命令提示窗口键入ping 127.0.0.1。问题1:发送了多少数据包?接受了多少数据包?丢失了多少数据包? 发送了4个数据包;接受了4个数…

Java集合(二)---Map

1.什么是Hash算法哈希算法是指把任意长度的二进制映射为固定长度的较小的二进制值&#xff0c;这个较小的二进制值叫做哈希值static final int hash(Object key) {int h;return (key null) ? 0 : (h key.hashCode()) ^ (h >>> 16);}以上是HashMap中的hash算法代码2…

机器学习------ 基于ubuntu 22.04 系统下的pytorch 安装记录过程(包含cuda和cudnn的安装)

机器学习----- pytorch的安装过程 最近&#xff0c;在学习机器学习&#xff0c;在对于理论方面进行一段时间的学习后&#xff0c;打算开始上手代码。在此之前&#xff0c;选择了pytorch作为学习的工具&#xff0c;这里记录下安装的过程。在这里&#xff0c;先把我的设备展示一…