名词知识介绍:
对抗性训练:是通过在模型训练过程中在输入空间中进行随机扰动(perturbations)来提高深度学习模型泛化能力的有效方法。
随机扰动,常称之为随机误差。
分类器:在已有数据的基础上学会一个分类函数或构造出一个分类模型来进行数据挖掘
TAS,全称Tool-Assisted Speedrun,即“工具辅助竞速”,
正则化(regularization),是指在线性代数理论中,不适定问题通常是由一组线性代数方程定义的,而且这组方程组通常来源于有着很大的条件数的不适定反问题。
超参数:是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。
交叉熵:交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。
优点:
1.对抗性训练可以作为一种正则化方法来提高泛化性能 以及防止深度学习模型过度拟合。
缺点:
1.对抗性训练忽略了协同信号未能捕获数据分布中的平滑性
论文作者认为用户和项目之间的行为相似性的协作信号很重要,于是,将协作信号注入到扰动过程并开发定向的对抗训练。
图形神经网络容易受到输入特征[13]、[14]的小而有意的扰动(图神经网络)
原因:
1.图神经网络也优化了标记数据上的监督损失,因此它将面临相同的损失 作为标准神经网络[15]的生物问题
2.附加的平滑约束将加剧扰动的影响,因为跨越连接节点的平滑将聚合来自连接到ta的节点的扰动的影响rget节点(即我们应用扰动以改变其预测的节点)。 图1用图w的直观例子说明了扰动对节点特征的影响有4个节点。 图神经网络模型分别预测具有应用扰动的清洁输入特征和特征的节点标签(总共3个。 在这里,扰动是故意施加的节点1、2、4的特征。 因此,图神经网络模型被愚弄,对节点1和2作出错误的预测
图片分析:
图 1:一个直观的例子来说明将扰动应用于输入节点特征对图神经网络预测的影响。 在这里,模型实现了图平滑度c通过在图上传播节点嵌入进行约束。 在右边,模型在目标节点3的连接节点上传播应用的扰动,导致错误的预测。 而且,在节点1和2上的扰动直接导致错误的相关预测,如在标准神经网络中。
GraphAT的关键思想是,当在目标示例 target example上产生扰动时,它使目标示例的预测与其连接示例(connected examples)之间的分歧最大化。 也就是说,a对抗性扰动应该尽可能地攻击图形平滑约束。
GraphAT通过额外最小化图对抗性正则化(graph adversarial regularizer)来更新模型参数,减少 扰动目标实例与其连通实例之间的预测发散。 通过这种方法,GraphAT可以抵抗基于图形学习的最坏情况扰动,并增强模型半身像。 为了有效地计算对抗性扰动,我们进一步设计了一种基于反向传播的线性逼近方法。
防止通过节点连接传播的扰动(如图1所示),或者对抗性训练中的图形结构。
GraphAT的训练过程:
1.构造图对抗性实例;
2.通过最小化损耗值和图对抗性正则化来更新模型参数。
GraphAT 的公式:
公式内容介绍:
image.png协助理解上述公式:
在模型参数的当前值下,通过最大化图对抗性正则化来计算图对抗性扰动。 也就是说,图的对抗性扰动是输入特征上的变化方向,它可以最大限度地攻击图形对抗性正则化,即从邻居节点传播的扰动的最坏情况。 是一个超参数控制 令扰动的大小,这通常被设置为小值,以便对抗性示例的特征分布接近干净示例。
图2说明了 GraphAT 的过程。 而传统的基于图的正则化(例如,图Laplacian术语)也鼓励了图结构上预测的平滑性,Graph AT被认为是一个更先进的规则,原因有两个:1)Graph AT执行的正则化是动态的 由于对抗性示例是根据模型的当前参数和预测自适应生成的,而基于标准图形的正则化是静态的;2)图A Tto 在一定程度上增加了训练数据,因为在训练数据中没有出现生成的对抗性例子,这有利于模型的泛化。
image.png
让扰动δ的方向是沿着梯度提升的方向的,沿着梯度提升也就意味着让损失增大的最大。
FGSM(Fast Gradient Sign Method)和FGM(Fast Gradient Method)的区别在于采用的归一化的方法不同,
FGSM是通过Sign函数对梯度采取max归一化,
FGM则采用的是 L2归一化。max归一化是是说如果梯度某个维度上的值为正,则设为1;如果为负,则设为-1;如果为0,则设为0。L2归一化则将梯度的每个维度的值除以梯度的L2范数。 理论上L2归一化更严格的保留了梯度的方向,但是max归一化则不一定和原始梯度的方向相同。
image.png image.png
只考虑标记的干净示例,虚拟对抗性 培训还鼓励模型围绕未标记的清洁示例进行一致的预测。 Graph-VAT的公式为:
image.png image.png
这里那个正则化与公式(1)不相同,他通过引入了对抗训练中的对抗样本对训练进行干扰,形成的对抗性正则化,目的是增加模型的鲁棒性(健壮性)。
为了用我们提出的图AT和图增值税来训练GCN,我们将方程2和4中的项设置为方程7中的交叉熵损失,它们被最小化以分别更新GCN的参数
GAT在GCN的基础上,通过添加对抗训练构造对抗样本,提高模型的鲁棒性稳定性
在一些细节上,引入 快速梯度法, 交叉熵,KL散度
Softmax
作者在[2]是第一个定义训练神经概率语言模型使用Softmax交叉熵训练损失。 Softmax在计算上是缓慢的,快速的近似建议加快培训。 由作者在[4]引入的Softmax采样显示了时间复杂性和最先进的结果[3,12]的巨大改进。 采样Softmax避免计算 词汇中每个单词的ING分数,因为你选择一个提案分布,从中它是便宜的样本,并执行一个有偏见的重要性抽样近似的Softmax的梯度。 噪音还引入了对比估计[10]作为Softmax的无偏估计,并证明了它对学习单词嵌入[25]的有效性。 相反,[22,23]支柱的作者 一个负抽样损失,其目标不是近似Softmax,而是学习单词的高质量向量表示。 因此,他们训练一个分类器,可以区分 正对来自真实分布,假对来自负抽样分布。
无偏差估计:
无偏估计是用样本统计量来估计总体参数时的一种无偏推断。
负采样:
使用抽样方法,可以用明智选择的点扩展训练集,以减少模型([30])或方差所造成的泛化误差数据集([38])。 在主动学习中,一个著名的研究领域是不确定性抽样([11,32])。 在此设置中,查询最不确定的实例以帮助模型细化决策 边界。 相反,在最大模型变化抽样中,一个是寻找具有最高范数梯度的样本点来提高性能([1,14])。 我们请感兴趣的读者[36]f 或者更详尽地比较主动学习方法。 在我们的例子中,我们永远无法访问采样点的真实标签,但我们认为理想的负采样应该是a 接近决策边界的采样数据点与采样非常不可能的数据之间的相对权衡。
定义·:
自然语言处理领域中,判断两个单词是不是一对上下文词(context)与目标词(target),如果是一对,则是正样本,如果不是一对,则是负样本。
4.主动学习
主动学习(Active Learning)为我们提供了这种可能。主动学习通过一定的算法查询最有用的未标记样本,并交由专家进行标记,然后用查询到的样本训练分类模型来提高模型的精确度。
为了尽可能地减小训练集及标注成本,在机器学习领域中,提出主动学习(active learning)方法,优化分类模型。
在各种主动学习方法中,查询函数的设计最常用的策略是:
不确定性准则(uncertainty)和差异性准则(diversity)。
kl 散度—-相对熵
image.png image.png
网友评论