1. 问题分类
针对问题的分类
- Factoid: who is the president of USA?
- Simple Question. One that can be answered with single evidence. E.g. Who wrote the book of Beijing Folding
- Multi-hop Question. Requires with many facts
- Aggregate Question. Requires with many facts and calculation. E.g. what is the longest Olympic opening before Beijing 2008.
- Descriptive: what are characteristics of the new Mac Pro
- Procedural: how to install windows 10
- Calculation: how many Chinese won Turing awards
- Causal: why is it dark at night
- Opinion: how do you think about Trump?
2. 基于不同数据形式的问答
2.1 传统问答系统基本架构
Factoid Question Answering System
data:image/s3,"s3://crabby-images/9542d/9542dbf7e28e00fcb3b3b924d7d476a5726d4a0d" alt=""
Community Question Answering System
data:image/s3,"s3://crabby-images/f56ae/f56aea59a0cc42b66bda43e89f00475b2393b3d8" alt=""
2.2 基于结构化数据的问答(知识图谱、数据库)
2.2.1 主要问题
如何匹配自然语言问题与结构化的知识图谱triple,包括问句句式变换、实体别名处理等。
- Embedding,将问题、triple都映射成向量进行匹配。
如何根据问题和匹配到的triple生成自然语言答案。
- 基于RNN的生成模型,类似seq2seq的decoding过程。
2.2.2 相关模型
CFO:首先通过sequence labelling方法找出focus短语,通过TransE的方法把知识图谱中的实体与关系都转化成Embedding。然后通过Stacked bi-directional GRU生成问题的Embedding,分别计算句子的Embedding与句子中出现的实体/关系的距离来最终生成答案。
data:image/s3,"s3://crabby-images/62cd2/62cd22390c5045e53e366a60de3fbe96da4fa8a2" alt=""
KBQA:基本思路是利用问题模板来明确用户意图。首先识别问题中的实体,然后根据问题和实体寻找可能对应的模板,通过模板推测出其对应的用户意图,最终转化成知识图谱查询。
data:image/s3,"s3://crabby-images/6ff12/6ff12fcd89fba7d7f80a11c78557919b8d2984b1" alt=""
GenQA:首先将query和知识图谱中的triple转化成embedding,通过query word生成triple候选,通过CNN的方法计算query与triple候选的相似度并选择最匹配的triple,最后基于生成模型生成最终的答案。
data:image/s3,"s3://crabby-images/6fcba/6fcba8a2595644f154732070436805846c804ca0" alt=""
QA from Relational Database:基于关系型数据库的问答系统,首先将数据库中的entry转化成table embedding,将query也转化成embedding,然后基于Memory Network类似的思路对逐步将query转化成关系型数据库查询。
data:image/s3,"s3://crabby-images/8c487/8c487d8d97c4c39beb44ba69f500af01e457e5cc" alt=""
2.3 基于FAQ的问答
2.3.1 主要问题
如何从半结构化/无结构化的数据中挖掘FAQ。
- QnA Miner,采用机器与人工相结合的半自动方法来解决。
如何匹配问题与答案。
- 经典的Ranking问题,deeper model。
2.3.2 相关模型
QnA Miner:基于半结构化和非结构化数据FAQ挖掘流程
data:image/s3,"s3://crabby-images/02f04/02f0451736e1757aa0fb6bc92290c4f07df44fef" alt=""
百度搜索排序框架,基于深度学习来计算query和文本语义关联。
data:image/s3,"s3://crabby-images/73a21/73a210373c94f2a048b717c5872c4a0bfeeedfe9" alt=""
Convolutional Neural Tensor Network Architecture for Community-based Question Answering:基于CNN端到端的问题和答案匹配模型。
data:image/s3,"s3://crabby-images/81d94/81d94947bf437b25ab333d4a36861ee66341aac1" alt=""
2.4 基于无结构文档的问答
2.4.1 主要问题
如何从冗余信息中找到与问题相关的片段,进而返回准确的答案。
- Attention-over-attention
2.4.2 相关模型
Attention-over-attention neural networks for reading comprehension:从文档中寻找问题的答案,采用了Attention-over-attention的机制。
data:image/s3,"s3://crabby-images/7ea89/7ea89e343a1217c2b5a8e1a891b0df69ca1b636c" alt=""
2.5 基于事实的推理问答
2.5.1 主要问题
如何基于自然语言的事实与问题进行推理建模。
- 外部记忆,分步进行推理
2.5.2 相关模型
Memory Network
data:image/s3,"s3://crabby-images/255a4/255a4d7e2d6cbbeab29ff4e1975395d20782bde6" alt=""
Dynamic Memory Network
data:image/s3,"s3://crabby-images/b8dcb/b8dcb1fa30f02a25ab9b0467e2ee9c3ea6d51dc8" alt=""
Towards Neural Network-based Reasoning
data:image/s3,"s3://crabby-images/777ba/777ba9d8f5113f409bf1d048f4c1a53182fda6ed" alt=""
3. 其他问题
如何将基于不同数据的问答系统进行整合
- 相对而言是一个工程方面的问题。
如何解决知之为知之不知为不知
- Robust Question Answering
- AI systems must produce accurate confidence values. Should “abstain” when they are uncertain
- AI systems should explain their reasoning
- AI systems should be robust to incorrect design assumption
- We need verification and validation methodologies for AI systems
data:image/s3,"s3://crabby-images/dde10/dde104013ba148a2be152dd9b9faab466852ee2f" alt=""
4. 引用
王海峰老师在AAAI 2017的报告
李磊老师在将门的报告
肖仰华老师在将门的报告
李航老师在AIRS 2016的报告
Yan Jun老师在知识图谱研讨会的报告
Recent Progress in Deep Learning for Natural Language Processing
Zhengdong Lu老师的报告
网友评论
比如问张三妻子的工作是什么,一篇文本说了张三的妻子是XXX,另一篇说XXX的工作是什么。