深度学习——注意力机制（笔记+代码）

news/2024/4/28 13:41:55/文章来源:https://blog.csdn.net/jbkjhji/article/details/128939432

1.从心理学的角度出发

人类根据随意线索（随着意志，主动的，有意识）和不随意线索（无主动，潜意识）选择注意点

第一眼看到红色咖啡杯比较突出和易见就是潜意识的不随意线索

随着意识想主动读书，看到的书就是随意线索

2.注意力机制

①卷积，全连接，池化层都只考虑不随意线索，因为它们让数据原有的特点更加突出，能让特点注意到，就是不随意。

Ⅰ池化层操作是将感受野范围最大值提取出来（最大池化）

Ⅱ卷积操作是将输入全部通过卷积核进行操作，提取出明显的特征。

②注意力机制则显示的考虑随意线索（想要的）

Ⅰ随意线索称为查询(query)—想要做的

Ⅱ每个输入是一个值(value)和不随意线索(key)的键值对—理解为环境，就是键值对，key和value可以相同和不同

Ⅲ通过注意力池化层偏向的选择某些输入—根据query偏向的选择输入，显示的加入query，根据query查询所需要的东西。

3.非参注意力池化层：不需要学习参数

非参：不需要学习参数

x,y：key-value键值对

f(x):就是query查询的东西

平均池化：最简单的方案，不需要管查询的东西(f(x)的x)，只对y求和取平均就可以了。

4. Nadaraya-Watson 核回归：

①核：K函数，衡量x和xi之间距离的函数

②在给定的数据进行查询xi，选择和新给定的值比较近的数据，然后将这些数据对应的value值进行加权求和，得到最终的query，不需要学习参数。

5.K的选择：高斯核

代入公式得到

①U：x-xi代表之间的距离

②exp:结果是大于0的数

③softmax得到0-1之间的数作为权重

④上述公式加一个可学习的参数w

【总结】

①心理学认为人通过随意线索和不随意线索选择注意点

②注意力机制中，通过query(随意线索)和key(不随意线索)偏向选择输入，写作

f（x）的 key 和所有的不随意线索的 key 做距离上的计算（α（x，xi），通常称为注意力权重），分别作为所有的 value 的权重

【代码】

import torch
from torch import nn
from d2l import torch as d2l

1.生成数据集

n_train = 50  # 训练数据样本
x_train, _ = torch.sort(torch.rand(n_train) * 5)  # 排序后的训练样本def f(x):return 2 * torch.sin(x) + x ** 0.8y_train = f(x_train) + torch.normal(0.0, 0.5, (n_train,))  # 训练样本的输出
x_test = torch.arange(0, 5, 0.1)  # 测试样本
y_truth = f(x_test)  # 测试样本的真实输出
n_test = len(x_test)def plot_kernel_reg(y_hat):d2l.plot(x_test, [y_truth, y_hat], 'x', 'y', legend=['Truth', 'Pred'],xlim=[0, 5], ylim=[-1, 5])d2l.plt.plot(x_train, y_train, 'o', alpha=0.5);

2.平均汇聚

y_hat = torch.repeat_interleave(y_train.mean(), n_test)
plot_kernel_reg(y_hat)

3.非参数注意力汇聚

#  x_repeat的形状是(n_test,n_train),每一行包含相同的测试输入
X_repeat = x_test.repeat_interleave(n_train).reshape((-1, n_train))
# x_train包含着键。attention_weights的形状：(n_test,n_train),
# 每一行都包含着要在给定的每个查询的值（y_train）之间分配的注意力权重
attention_weights = nn.functional.softmax(-(X_repeat - x_train) ** 2 / 2, dim=1)
# y_hat的每个元素都是值的加权平均值，其中的权重是注意力权重
y_hat = torch.matmul(attention_weights, y_train)
plot_kernel_reg(y_hat)

4.训练可以学习的参数

# 使用小批量乘法计算加权平均值

weights = torch.ones((2, 10)) * 0.1
values = torch.arange(20.0).reshape((2, 10))
torch.bmm(weights.unsqueeze(1), values.unsqueeze(-1))

5.带参数的注意力汇聚

class NWKernelRegression(nn.Module):def __init__(self, **kwargs):super().__init__(**kwargs)self.w = nn.Parameter(torch.rand((1,), requires_grad=True))def forward(self, queries, keys, values):# queries和attention_weights的形状为(查询个数，“键－值”对个数)queries = queries.repeat_interleave(keys.shape[1]).reshape((-1, keys.shape[1]))self.attention_weights = nn.functional.softmax(-((queries - keys) * self.w) ** 2 / 2, dim=1)# values的形状为(查询个数，“键－值”对个数)return torch.bmm(self.attention_weights.unsqueeze(1),values.unsqueeze(-1)).reshape(-1)

6.将训练数据集转换为键和值

# X_tile的形状:(n_train，n_train)，每一行都包含着相同的训练输入
X_tile = x_train.repeat((n_train, 1))
# Y_tile的形状:(n_train，n_train)，每一行都包含着相同的训练输出
Y_tile = y_train.repeat((n_train, 1))
# keys的形状:('n_train'，'n_train'-1)
keys = X_tile[(1 - torch.eye(n_train)).type(torch.bool)].reshape((n_train, -1))
# values的形状:('n_train'，'n_train'-1)
values = Y_tile[(1 - torch.eye(n_train)).type(torch.bool)].reshape((n_train, -1))

7.训练

net = NWKernelRegression()
loss = nn.MSELoss(reduction='none')
trainer = torch.optim.SGD(net.parameters(), lr=0.5)
animator = d2l.Animator(xlabel='epoch', ylabel='loss', xlim=[1, 5])for epoch in range(5):trainer.zero_grad()l = loss(net(x_train, keys, values), y_train)l.sum().backward()trainer.step()print(f'epoch {epoch + 1}, loss {float(l.sum()):.6f}')animator.add(epoch + 1, float(l.sum()))

8.最后结果

# keys的形状:(n_test，n_train)，每一行包含着相同的训练输入（例如，相同的键）
keys = x_train.repeat((n_test, 1))
# value的形状:(n_test，n_train)
values = y_train.repeat((n_test, 1))
y_hat = net(x_test, keys, values).unsqueeze(1).detach()
plot_kernel_reg(y_hat)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_255494.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！