美文网首页
注意力机制

注意力机制

作者: 小黄不头秃 | 来源:发表于2022-10-05 10:09 被阅读0次

    (一)注意力机制

    接下来的这部分就是序列模型中transformer的重要部分了我门先从注意力机制开始入手。

    (1)心理学

    动物的视觉系统,通常能够在复杂的环境下有效关注值得注意的点。忽略大部分没有意义的背景。

    心理学框架:人类根据随意线索和不随意线索选择注意点。虽然我也不太理解这句话,大致是想表达,人类会有意识地筛选注意点。

    随意,可以理解为跟随意愿;那么不随意更像是一种潜意识。

    (2)注意力机制

    注意力机制被提出一开始并不是基于心理学的。但是随着人们的研究发现注意力机制是符合心理学这种认知的。

    卷积、全连接、池化层都只考虑不随意线索。
    然而注意力机制则显示的考虑随意线索:

    • 随意线索被称之为查询(query);
    • 每一个输入是一个值(value)和不随意线索(key)的对;key 和 value 可能是一样的,也可能是不一样的。
    • 通过注意力池化层来有偏向性的选择某些输入;
    (3)非参注意力池化层(不需要学参数)

    给定数据(x_i, y_i),i = 1,…,n。
    平均池化层是最简单的方案。
    更好的的方案是60年代提出来的Nadaraya-Watson核回归。

    • Nadaraaya-Watson核回归
      使用高斯核
      K(u) = \frac{1}{\sqrt{2\pi}} \exp(-\frac{u^2}{2}).

    将高斯核代入上述公式可以得到:

    \begin{aligned} f(x) &=\sum_{i=1}^n \alpha(x, x_i) y_i\\ &= \sum_{i=1}^n \frac{\exp\left(-\frac{1}{2}(x - x_i)^2\right)}{\sum_{j=1}^n \exp\left(-\frac{1}{2}(x - x_j)^2\right)} y_i \\&= \sum_{i=1}^n \mathrm{softmax}\left(-\frac{1}{2}(x - x_i)^2\right) y_i. \end{aligned}

    (5)参数化注意力机制

    在上面Nadaraya-Watson核回归的基础上,加上可以学习的w

    \begin{aligned}f(x) &= \sum_{i=1}^n \alpha(x, x_i) y_i \\&= \sum_{i=1}^n \frac{\exp\left(-\frac{1}{2}((x - x_i)w)^2\right)}{\sum_{j=1}^n \exp\left(-\frac{1}{2}((x - x_j)w)^2\right)} y_i \\&= \sum_{i=1}^n \mathrm{softmax}\left(-\frac{1}{2}((x - x_i)w)^2\right) y_i.\end{aligned}

    (二)代码实现 (注意力汇聚:Nadaraya-Watson核回归)

    import torch 
    from torch import nn 
    from d2l import torch as d2l
    
    # 生成数据集
    n_train = 50  
    x_train, _ = torch.sort(torch.rand(n_train)*5)
    
    # 制造函数
    def f(x):
        return 2*torch.sin(x)  + x**0.8
    
    y_train = f(x_train) + torch.normal(0.0,0.5,(n_train,))
    x_test = torch.arange(0, 5, 0.1)
    y_truth = f(x_test)
    n_test = len(x_test)
    n_test
    
    def plot_kernel_reg(y_hat):
        d2l.plot(x_test, [y_truth, y_hat], 'x', 'y', legend=['Truth', 'Pred'],
                 xlim=[0, 5], ylim=[-1, 5])
        d2l.plt.plot(x_train, y_train, 'o', alpha=0.5)
    
    y_hat = torch.repeat_interleave(y_train.mean(), n_test)
    plot_kernel_reg(y_hat)
    
    # 非参数的注意力汇聚(非参数注意力池化)
    x_repeat = x_test.repeat_interleave(n_train).reshape((-1, n_train))  # 将每个元素重复n_train次
    # print(x_test.shape,x_repeat.shape,x_train.shape) # torch.Size([50]) torch.Size([50, 50]) torch.Size([50])
    # X_repeat的形状:(n_test,n_train),
    # x_train包含着键。attention_weights的形状:(n_test,n_train),
    # 每一行都包含着要在给定的每个查询的值(y_train)之间分配的注意力权重
    attention_weights = nn.functional.softmax(-(x_repeat - x_train)**2 / 2, dim=1)
    # y_hat的每个元素都是值的加权平均值,其中的权重是注意力权重
    y_hat = torch.matmul(attention_weights, y_train)
    plot_kernel_reg(y_hat)
    
    # 观察注意力权重
    d2l.show_heatmaps(attention_weights.unsqueeze(0).unsqueeze(0),
                      xlabel='Sorted training inputs',
                      ylabel='Sorted testing inputs')
    

    带参数注意力汇聚(带参数的注意力池化)
    假定两个张量的形状分别是(n,a,b)(n,b,c),它们的批量矩阵乘法输出的形状为(n,a,c)

    X = torch.ones((2, 1, 4))
    Y = torch.ones((2, 4, 6))
    torch.bmm(X, Y).shape
    
    weights = torch.ones((2, 10)) * 0.1
    values = torch.arange(20.0).reshape((2, 10))
    torch.bmm(weights.unsqueeze(1), values.unsqueeze(-1))
    
    class NWKernelRegression(nn.Module):
        def __init__(self, **kwargs):
            super().__init__(**kwargs)
            self.w = nn.Parameter(torch.rand((1,), requires_grad=True))
    
        def forward(self, queries, keys, values):
            # queries和attention_weights的形状为(查询个数,“键-值”对个数)
            queries = queries.repeat_interleave(keys.shape[1]).reshape((-1, keys.shape[1]))
            self.attention_weights = nn.functional.softmax(
                -((queries - keys) * self.w)**2 / 2, dim=1)
            # values的形状为(查询个数,“键-值”对个数)
            return torch.bmm(self.attention_weights.unsqueeze(1),
                             values.unsqueeze(-1)).reshape(-1)
    
    训练

    接下来,[将训练数据集变换为键和值]用于训练注意力模型。
    在带参数的注意力汇聚模型中,
    任何一个训练样本的输入都会和除自己以外的所有训练样本的“键-值”对进行计算,
    从而得到其对应的预测输出。

    # X_tile的形状:(n_train,n_train),每一行都包含着相同的训练输入
    X_tile = x_train.repeat((n_train, 1))
    # Y_tile的形状:(n_train,n_train),每一行都包含着相同的训练输出
    Y_tile = y_train.repeat((n_train, 1))
    # keys的形状:('n_train','n_train'-1), 去掉对角线上的元素
    keys = X_tile[(1 - torch.eye(n_train)).type(torch.bool)].reshape((n_train, -1))
    # values的形状:('n_train','n_train'-1), 去掉对角线上的元素
    values = Y_tile[(1 - torch.eye(n_train)).type(torch.bool)].reshape((n_train, -1))
    
    # torch.eye(n_train) # 一个对角线全1的矩阵
    # torch.eye(n_train).type(torch.bool) # 转化为bool值
    # (1-torch.eye(n_train)).type(torch.bool) # 对上述矩阵取反
    # (1-torch.eye(n_train)).type(torch.bool) == ~torch.eye(n_train).type(torch.bool)# 两种写法相同
    # print((~torch.eye(n_train).type(torch.bool)).shape) # torch.Size([50, 50])
    # X_tile[(1 - torch.eye(n_train)).type(torch.bool)].shape # torch.Size([2450])
    
    # x=  torch.randn((3,3))
    # i =  torch.ones((3,3),dtype=torch.bool)
    # x,x[i],x[[[True,False,False],[True,True,False]]]
    
    net = NWKernelRegression()
    loss = nn.MSELoss(reduction='none')
    trainer = torch.optim.SGD(net.parameters(), lr=0.1)
    animator = d2l.Animator(xlabel='epoch', ylabel='loss', xlim=[1, 5])
    
    for epoch in range(5):
        trainer.zero_grad()
        l = loss(net(x_train, keys, values), y_train)
        l.sum().backward()
        trainer.step()
        print(f'epoch {epoch + 1}, loss {float(l.sum()):.6f}')
        animator.add(epoch + 1, float(l.sum()))
    
    # keys的形状:(n_test,n_train),每一行包含着相同的训练输入(例如,相同的键)
    keys = x_train.repeat((n_test, 1))
    # value的形状:(n_test,n_train)
    values = y_train.repeat((n_test, 1))
    y_hat = net(x_test, keys, values).unsqueeze(1).detach()
    plot_kernel_reg(y_hat)
    
    d2l.show_heatmaps(net.attention_weights.unsqueeze(0).unsqueeze(0),
                      xlabel='Sorted training inputs',
                      ylabel='Sorted testing inputs')
    

    相关文章

      网友评论

          本文标题:注意力机制

          本文链接:https://www.haomeiwen.com/subject/rtcmortx.html