美文网首页
基于维基百科的人工智能问答系统DrQA

基于维基百科的人工智能问答系统DrQA

作者: chenpu_sy | 来源:发表于2019-10-09 15:18 被阅读0次

    简介

    DrQA是斯坦福大学和Facebook人工智能研究所今年4月份在arXiv发布的一个基于Wikipedia的Open-domain的QA系统,并与7月份在github上开源,以及在ACL上发表了一篇相关的文章。该系统只使用Wikipedia单一的数据源,目标是在大规模非结构化数据中根据输入的问题搜索出答案,特别针对MRS(大规模机器阅读)的任务。

    • DrQA系统结构


      image.png

    DrQA for MRS

    DrQA的核心组件包括两个部分:文档检索器和文档阅读器,

    文档检索器

    文档检索不涉及到任何机器学习的东西,目的是为了在海量的文章里面迅速找到最相关的几篇文章,DrQA 并未绑定任何特定类型的检索系统——只要其能有效地缩小搜索空间并重点关注相关文档即可。
    主要基于一个基于稀疏的、TF-IDF 加权的词袋向量的有效文档检索系统。这里使用了 bags of hashed n-grams(这里是 unigrams 和 bigrams)。

    • 创建一个sqlite的数据库用于存储Wikipedia的文章
    python build_db.py /path/to/data /path/to/saved/db.db
    
    • Building the TF-IDF N-grams
    python build_tfidf.py /path/to/doc/db /path/to/output/dir
    
    • Interactive
    python scripts/retriever/interactive.py --model /path/to/model
    >>> process('question answering', k=5)
    
    +------+-------------------------------+-----------+
    | Rank |             Doc Id            | Doc Score |
    +------+-------------------------------+-----------+
    |  1   |       Question answering      |   327.89  |
    |  2   |       Watson (computer)       |   217.26  |
    |  3   |          Eric Nyberg          |   214.36  |
    |  4   |   Social information seeking  |   212.63  |
    |  5   | Language Computer Corporation |   184.64  |
    +------+-------------------------------+-----------+
    
    文档阅读器

    DrQA 的文档阅读器是一个多层循环神经网络机器理解模型,被训练用来执行提取式的问答。也就是说,该模型会使用一个返回的文档中的一段文本来作为问题的答案。
    该文档阅读器的灵感来自于 SQuAD 数据集,并且也主要是在这个数据集上训练的。它也可以在类似于 SQuAD 的任务上单独使用,其中可以通过问题、包含在上下文中的答案来提供一个特定的语境。

    Demo效果

    image.png

    参考

    相关文章

      网友评论

          本文标题:基于维基百科的人工智能问答系统DrQA

          本文链接:https://www.haomeiwen.com/subject/gpmhlxtx.html