阅读理解系列之Stochastic Answer Network

作者: CNforinsist | 来源:发表于2020-02-13 19:54 被阅读0次

阅读理解系列之Stochastic Answer Network
《Network in network》理解
Android IPC 之Binder应用
Android IPC 之Messenger 原理及应用
Android IPC 之Binder基础
Android IPC 之AIDL应用(下)
Android IPC 之服务端回调
Android IPC 之AIDL应用(上)
Android IPC 之AIDL应用(下)
Android IPC 之Service 还可以这么理解

今天终于开始技术博客的第一章，从阅读理解的非预训练model开始，第一篇SAN for SQUAD 2.0

阅读理解系列之Stochastic Answer Network (SAN)

一、摘要

SAN for SQUAD 2.0 主要包含两个组件：

a span detector and a binary classifier for judging whether the question is unanswerable，and both components are jointly optimized.

也就是一个跨度检测器和一个线性分类器，其中线性分类器用来判断当前问题是否有答案（毕竟这是SQUAD2.0相比于 1.1的最大改变之处，也为阅读理解提供了难度），跨度检测器用来检测答案的span。整个模型可以看作，整体包含五（四）层。

二、模型架构

以下是模型的整体架构图

模型分为两部分：左边的上半部分也就是刚才所写的跨度检测器（a span detector），也就是SAN Answer Module，右边的上半部分也就是线性分类器（a binary classifier），而且模型包括两种不同的layers。

几个关键点：

共享层（不局限于某个特定的下游任务）包括：

a lexicon encoding layer, contextual encoding layer and memory generation layer

特定下游任务层：包括 SAN ANswer Module 和 a binary classfier

整个模型是共同学习的

下面详细介绍整个模型的各个层级

1.lexicon encoding layer（也就是词典编码层）

事先将question划分位Q={q_0,q_1,q_2,..,q_m-1} ,passage/paragraph划分为P={p_0,p_1,p_2,...,p_m-1},answer 计算为 A={abegin , aend}，A也就是P中的一个字串，当问题无法回答时，A指向段落的最后一个标记。

第一步，将Q and P映射到欧氏空间（所有model的第一步都大差不差），这里采用的是300-dim的glove word emdedding、16-dim part-of-speech(POS) tagging embeddings, 8-dim named-entity embeddings and 4-dim hard-rule features

最后就是通过两层的position-wise Feed- Forward Networks (FFN)将questrion and passager映射到同一纬度。最后分别将Q和P转换为矩阵：Eq=R d*m

Eq=Rd*m

2.Contextual Encoding Layer（上下文编码层）

使用两层的BiLSTM作为上下文信息编码层

为了避免过拟合将600-dimensional CoVe vectors和lexicon embeddings进行concat 作为contextual encoding layer的最后输入，

然后将600-dimensional CoVe vectors与第一层的输出进行concat作为第二层的输入。

最后通过两层的BiLSTM的输出得到最终的Hq∈ R4d×mfor questions and Hp∈ R4d×nfor passages.

3.Memory Generation Layer

本层的主要作用的是将前面得到的Hq、 Hp进行融合从而产生一个 working memory，在此层中使用attenion机制来计算qustion and passage之间的相似度：

先得到question-aware passage representation：