《Graph Attention Networks》

作者: 晓柒NLP与药物设计 | 来源:发表于2022-07-21 17:48 被阅读0次

    图卷积发展至今,早期的进展可以归纳为谱图方法和非谱图方法,这两者都存在一些挑战性问题

    • 谱图方法:学习滤波器主要基于图的拉普拉斯特征,图的拉普拉斯取决于图结构本身,因此在特定图结构上学习到的谱图模型无法直接应用到不同结构的图中
    • 非谱图方法:对不同大小的邻域结构,像CNNs那样设计统一的卷积操作比较困难

    此外,图结构数据存在大量噪声,节点之间的连接关系有时并不重要,节点的不同邻居的相对重要性也有差异

    5.5.1 论文模型

    改论文提出了图注意力网络(GAT),利用masked self-attention layer,通过堆叠网络层,获取每个节点的邻域特征,为邻域中的不同节点分配不同的权重。不需要高成本的矩阵运算,也不用预先知道图结构信息。通过这种方式,GAT可以解决谱图方法存在的问题,同时也能应用于归纳学习和直推学习问题

    假设一个图有N个节点,节点的F维特征集合可以表示为
    {h}=\left\{\vec{h}_{1}, \vec{h}_{2}, \ldots, \vec{h}_{N}\right\}, \vec{h}_{i} \in {R}^{F}\tag{73}

    注意力层的目的是输出新的节点特征集合
    {h}^{\prime}=\left\{\vec{h}_{1}^{\prime}, \vec{h}_{2}^{\prime}, \ldots, \vec{h}_{N}^{\prime}\right\}, \vec{h}_{i}^{\prime} \in {R}^{F^{\prime}}\tag{74}
    在这个过程中特征向量的维度可能会改变,即
    F \rightarrow F^{\prime}\tag{75}
    为了保留足够的表达能力,将输入特征转化为高阶特征,至少需要一个可学习的线性变换。例如,对于节点i,j,对它们的特征\vec{h}_{i},\vec{h}_{j}应用线性变换,从W\in\mathbb{R}^{F^{'}\times F},从F维转化为F^{\prime}维新特征为\vec{h}_{i}^{\prime},\vec{h}_{j}^{\prime}
    e_{i j}=a\left({W} \vec{h}_{i}, {W} \vec{h}_{j}\right)\tag{76}
    上式在将输入特征运用线性变换转化为高阶特征后,使用self-attention为每个节点分配注意力(权重)。其中a表示一个共享注意力机制:\mathbb{R}^{F^{\prime}} \times \mathbb{R}^{F^{\prime}} \rightarrow \mathbb{R},用于计算注意力系数e_{ij},也就是节点i对节点j的影响力系数(标量)

    上面的注意力计算考虑了图中任意两个节点,也就是说,图中每个节点对目标节点的影响都被考虑在内,这样就损失了图结构信息。论文中使用了masked attention,对于目标节点i来说,只计算其邻域内的节点j\in \mathcal{N}对目标节点的相关度e_{ij}(包括自身的影响)

    为了更好的在不同节点之间分配权重,我们需要将目标节点与所有邻居计算出来的相关度进行统一的归一化处理,这里用softmax归一化:
    \alpha_{i j}=\operatorname{softmax}_{j}\left(e_{i j}\right)=\frac{\exp \left(e_{i j}\right)}{\sum_{k \in {N}_{i}} \exp \left(e_{i k}\right)}\tag{77}
    关于a的选择,可以用向量的内积来定义一种无参形式的相关度计算\langle {W} \vec{h}_{i}\ , {W} \vec{h}_{j} \rangle,也可以定义成一种带参的神经网络层,只要满足a:R^{d^{(l+1)}} \times R^{d^{(l+1)}} \rightarrow R,即输出一个标量值表示二者的相关度即可。在论文实验中,a是一个单层前馈神经网络,参数为权重向量\overrightarrow{\mathrm{a}} \in \mathbb{R}^{2 F^{\prime}},使用负半轴斜率为0.2的LeakyReLU作为非线性激活函数:
    e_{ij} = \text { LeakyReLU }\left(\overrightarrow{{a}}^{T}\left[{W} \vec{h}_{i} \Vert {W} \vec{h}_{j}\right]\right)\tag{78}
    其中\Vert表示拼接操作。完整的权重系数计算公式为:
    \alpha_{i j}=\frac{\exp \left(\text { LeakyReLU }\left(\overrightarrow{{a}}^{T}\left[{W} \vec{h}_{i} \| {W} \vec{h}_{j}\right]\right)\right)}{\sum_{k \in {N}_{i}} \exp \left(\text { LeakyReLU }\left(\overrightarrow{{a}}^{T}\left[{W} \vec{h}_{i} \| {W} \vec{h}_{k}\right]\right)\right)}\tag{79}
    得到归一化注意系数后,计算其对应特征的线性组合,通过非线性激活函数后,每个节点的最终输出特征向量为:
    \vec{h}_{i}^{\prime}=\sigma\left(\sum_{j \in {N}_{i}} \alpha_{i j} {W} \vec{h}_{j}\right)\tag{80}
    多头注意力机制

    另外,本文使用多头注意力机制(multi-head attention)来稳定self-attention的学习过程,即对上式调用K组相互独立的注意力机制,然后将输出结果拼接起来:
    \vec{h}_{i}^{\prime}=\Vert_{k=1}^{K} \sigma\left(\sum_{j \in {N}_{i}} \alpha_{i j}^{k} {W}^{k} \vec{h}_{j}\right)\tag{81}
    其中\Vert是拼接操作,\alpha_{ij}^{k}是第k组注意力机制计算出的权重系数,W^{(k)}是对应的输入线性变换矩阵,最终输出的节点特征向量\vec{h}_{i}^{\prime}包含了KF^{\prime}个特征。为了减少输出的特征向量的维度,也可以将拼接操作替换为平均操作
    \vec{h}_{i}^{\prime}=\sigma\left(\frac{1}{K} \sum_{k=1}^{K} \sum_{j \in {N}_{i}} \alpha_{i j}^{k} {W}^{k} \vec{h}_{j}\right)\tag{82}
    下面是K=3的多头注意力机制示意图。不同颜色的箭头表示不同注意力的计算过程,每个邻居做三次注意力计算,每次attention计算就是一个普通的self-attention,输出一个\vec{h}_{i}^{\prime},最后将三个不同的\vec{h}_{i}^{\prime}进行拼接或取平均,得到最终的\vec{h}_{i}^{\prime}

    • GAT计算高效。self-attetion层可以在所有边上并行计算,输出特征可以在所有节点上并行计算;不需要特征分解或者其他内存耗费大的矩阵操作。单个head的GAT的时间复杂度为O\left(\mid V\mid F F^{\prime}+\mid E\mid F^{\prime}\right)
    • 与GCN不同的是,GAT为同一邻域中的节点分配不同的重要性,提升了模型的性能。
    • 注意力机制以共享的方式应用于图中的所有边,因此它不依赖于对全局图结构的预先访问,也不依赖于对所有节点(特征)的预先访问(这是许多先前技术的限制)。
      • 不必要无向图。如果边i\rightarrow j不存在,可以忽略计算e_{ij}
      • 可以用于归纳学习
    5.5.2 代码实现
    import torch
    import torch.nn as nn
    import torch.nn.functional as F
    from layers import GraphAttentionLayer, SpGraphAttentionLayer
    
    
    class GAT(nn.Module):
        def __init__(self, nfeat, nhid, nclass, dropout, alpha, nheads):
            """Dense version of GAT."""
            super(GAT, self).__init__()
            self.dropout = dropout
    
            self.attentions = [GraphAttentionLayer(nfeat, nhid, dropout=dropout, alpha=alpha, concat=True) for _ in range(nheads)]
            for i, attention in enumerate(self.attentions):
                self.add_module('attention_{}'.format(i), attention)
    
            self.out_att = GraphAttentionLayer(nhid * nheads, nclass, dropout=dropout, alpha=alpha, concat=False)
    
        def forward(self, x, adj):
            x = F.dropout(x, self.dropout, training=self.training)
            x = torch.cat([att(x, adj) for att in self.attentions], dim=1)
            x = F.dropout(x, self.dropout, training=self.training)
            x = F.elu(self.out_att(x, adj))
            return F.log_softmax(x, dim=1)
    

    相关文章

      网友评论

        本文标题:《Graph Attention Networks》

        本文链接:https://www.haomeiwen.com/subject/zotpirtx.html