Magi 是什么?
Magi 是由 Peak Labs 研发的基于机器学习的信息抽取和检索系统,它能将任何领域的自然语言文本中的知识提取成结构化的数据,通过终身学习持续聚合和纠错,进而为人类用户和其他人工智能提供可解析、可检索、可溯源的知识体系。
Magi 能做什么?
每条信息会用颜色表示其可信度,点击可展开看到 Magi 是从哪些具体来源习得的该知识。如果您是从 magi.com 来到这里的话,那么恭喜您发现了 Magi 的一半!这个长得很像搜索引擎的网站就是 Magi 的公众版本,但与搜索引擎不同,Magi 不仅收录互联网上的海量文本,还会去尝试理解并学习这些文本中蕴含的知识和数据。
不妨在 magi.com(使用帮助)尝试搜索一些您关心的事物,或者直接提出问题,Magi 都将竭力为您提供高度聚合的结构化知识结果:
我们为 Magi 从零研发了一套互联网搜索引擎,所以 magi.com 同时提供全网规模的普通搜索结果。因此,即使不巧没有结构化结果,您也不会白来。
值得一提的是,上述的学习过程是在无人干预的情况下 7 x 24 小时不间断运行的,实时新闻事件中的知识一般只需要 5 分钟就会被掌握。随着可交叉验证的信息源不断增加,先前学习到的知识的可信度会被重新评估,使结果中的错误被自动纠正。
Magi 的使命
目前,互联网上只有极少数知识被人类手工整理成了机器可以解析的格式,如各种百科栏目和垂直领域数据库,然而这些信息仅仅是沧海之一粟,无论是覆盖范围、更新频率、可靠程度都无法满足日益增长的自动化和智能化需求。
其根本矛盾在于:读懂自然语言对人类来说不难,但人的精力有限,无法跟上有价值信息的产生速度,也不能保证稳定和客观;机器虽然不知疲倦且速度超群,但面对纷繁复杂的自由文本却难以利用,使得不可估量的价值被埋没于字里行间。
试想一下,假如有一个不断自动更新的数据库,包含着互联网各处的文本信息提取而成的便于程序和算法处理的数据结构,那么也许:
各种语音助手不会再对您说:“对不起,我不清楚。”;
商业智能可获得广泛的背景知识来做出更好的判断;
金融信息服务的数据收集与验证的效率将显著提升;
… …
作为公众版本的 magi.com 为人类用户提供了与互联网数据交互的新方式,而 Magi 系统背后的技术平台则承载着另一半重要的意义:让机器像人一样能理解并充分利用互联网中无穷无尽的知识。
Magi 的技术
一个简单的句子就包含大量交错重叠的信息,而 Magi 要以整篇文章为单位处理语法松散又充满错误的互联网文本,其难度可想而知在目前相关领域的尝试中,机器问答终究还是面向人类的服务,依照文本问题给出的文本回答并不能供下游任务直接利用。同时,问答模型本身无论从容量还是更新效率都无法满足规模化的需求,更致命的是模型中的知识存在于由浮点数组成的“黑箱”中,在我们看来将这些无法解读和溯源的信息直接呈现给用户并不是最负责任的做法。另外,基于文档检索的方案同样无法满足结构化的需求,在实时线上服务中效率限制会导致其难以评估全部文档来获得全局最优,而且其对用户输入的查询要求较高。
综上所述,我们认为知识提取的重要性远高于单纯地回答问题,主动发现潜在知识并持续提炼修正则显著强于被动地根据输入的问题去匹配结果。让机器去理解语言已经十分困难,而 Magi 更是选择面对其中最复杂的目标:开放领域的互联网文本,去直面规模化和准确度这一组知识工程中的核心矛盾点。
为了提升信息的利用率,Magi 必须尽可能彻底地从每一段质量参差不齐且主题各异的文本中提取出全部知识。这决定了一切现有的技术方案都不可用:这不再是一个清晰的序列标注问题,交错叠加的关系使得搜索空间爆炸式增长,不受限制的领域还意味着根本没有可用的训练数据。
我们用了多年时间从零设计研发了整个技术堆栈:采用原创 succinct 索引结构的分布式搜索引擎、使用专门设计的 Attention 网络的神经提取系统、不依赖 Headless 浏览器的流式抓取系统、支持混合处理 170 余种语言的自然语言处理管线、… 。与此同时,我们默默耕耘并收获了独一无二的训练/预训练数据。
这个系统通过引入传统搜索中的 query-independent 质量因素,使得优质可靠的消息源会更被重视;其基于多级迁移学习的提取模型则完全摒弃了人工规则、角色标注、依存分析等限制泛化能力的环节,并且可在 zero-resource 的前提下直接应用到各种外语文本上并取得令人满意的效果;而随着数据的积累以及来源多样性的扩充,这个系统还能够持续学习与调整,自动消除学习到的噪音和错误结果;…
这些努力共同作用将 Magi 呈现于此。作为独特且具有前瞻性的项目,Magi 的部分数据与相关研究成果将定期公开于 Zenodo 和 arXiv 等平台。
Magi 的愿景
Magi 现在还远算不上成熟,但其特性决定了它无穷的可能性和成长空间。
从最棘手的互联网开放领域信息入手,Magi 证明了其作为 the One system to rule them all 的可能性。面对各种领域的文本信息,Magi 的技术方案则从逐项击破跃进到了大一统,这代表着有限到无限的区别。
随着数据量和可信度的不断增长,Magi 将作为知识的 ImageNet 来赋能各行各业。各个专业细分领域的信息提取任务,都可以通过利用少量数据对 Magi 模型进行 fine-tuning 来实现更优的方案。
也许在不远的未来,伴随着整个行业的进步,Magi 所构建的包容万事万物的结构化网络将成为通向可解释人工智能的基石。
“Peak Labs”公司近日发布了其人工智能系统 Magi 的公众版“ magi.com ”。通过这一搜索引擎,用户输入关键词,即可获取 Magi 从互联网文本中自主学习到的结构化知识和网页搜索结果,每个结构化结果后面都会附上来源链接和其可信度评分。
Magi 的神奇之处
Magi首页这跟我们使用的传统搜索引擎不同,传统搜索引擎返回的是一系列的链接,要解读问题,还需要自己去点击网页挖掘有用信息。
magi.com 里搜索“编程语言”这一引擎发布后,引来大批网友围观,将它的服务器玩挂了。Magi 作者发微博做了回应:“突然很多人关注到了我们,真的很感谢大家,其实搜索引擎真的不是我们的主业,我们自己没做任何推广,更没来得及准备应对这恐怖的流量……Magi 单次搜索的计算量比一般的网页搜索要重很多,请大家手下留情,同时再次表示抱歉!”
magi.com 的结果中,答案在搜索框的正下方,链接则在页面右边,跟主流搜索引擎的用户界面相反。如在 magi.com 里搜索“编程语言”,出来的首先是各种主流编程语言的合集:C#、Python、Java、JavaScript…同时给予“编程语言”这个词以“描述”和“属性”解释。红黄绿的颜色代表 Magi 给出的可信评分级别。
在答案的右侧提供了一些链接,用鼠标划过它们即可看到,答案是从哪个具体的来源学习到的:
Magi 的关注点在用户搜索行为的本质,相对传统搜索引擎来说做了一点小改进 :“帮你思考”。当输入想了解事物或信息,传统搜索引擎给出的是按照结果的权重 (Page Rank) 展现的链接信息,需要自己去归纳和判断可信度。Magi 多做了一步,不仅收录互联网上的海量文本,还会去尝试理解并学习这些文本中蕴含的知识和数据。
季逸超表示,Magi 类似于民用版的 IBM Watson 或非学术版的 Wolfram Alpha。Wolfram Alpha 是一个读得懂你提问的搜索引擎,它的目标是“计算一切” 。按照发明者 Stephen Wolfram 的说法,它是一个计算知识引擎,而不是像百度或者谷歌那样的搜索引擎。简单地说来,它其实是一个绘图计算器、参考书图书馆、以及搜寻引擎的综合体,非常超前。
除了直接给出计算结果,Wolfram Alpha 还能够处理基于自然语言的事实问答问题,例如:
如果输入“China GDP”,出现的将不是一大堆网页,而是直观的数据和图表。包括:中国 GDP 最新情况,从 1970 年至今的中国 GDP 增长情况(图表形式)、中国通货膨胀率、失业人口率。
如果输入“How many people in China”,你可以看到当前中国的总人口数、人口密度、平均每年人口增长率、预期寿命和平均年龄等数据。
Magi 的背后
Magi 来自中国团队 Peak Labs,创始人季逸超在开发者圈子内也小有名气。2011 年,还在北大附中读书期间,他就独自完成了猛犸浏览器 iOS 的开发。2012 年,季逸超创办了自己的公司,继续推动浏览器和输入法项目。目前,Peak Labs 主要精力都放在 Magi 项目上,专注于背后的技术,以及相关商业产品的开发。
“我们真正做商业化的,是 Magi 背后的技术——基于迁移学习的开放信息提取。”Magi 采取的迁移学习 NLU 算法,具有的优势在于只需使用通用数据训练 AI 引擎,就能使 AI 引擎很好的适用专业垂直领域。Magi 首先使用互联网知识和自有的数据进行预训练,而专业垂直领域的任务仅需极少量人工数据标注,就能达到大规模数据的训练效果。
季逸超的技术解读
一、利用率和通用性
Magi 不再依赖于预设的规则和领域,“不带着问题” 地去学习和理解互联网上的文本信息,同时尽可能找出全部信息 (exhaustive) 而非挑选唯一最佳 (most promising)。Magi 通过一系列预训练任务淡化了具体实体或领域相关的概念,转而学习 “人们可能会关注内容中的哪些信息?”。为 Magi 设计了专门的特征表达、网络模型、训练任务、系统平台(下面都会讲到),并投入大量精力逐渐构建了 proprietary 的专用训练 / 预训练数据。Magi 通过终身学习持续聚合和纠错,为人类用户和其他人工智能提供可解析、可检索、可溯源的知识体系。
二、覆盖率和时效性
配合自家 web 搜索引擎以评估来源质量,信息源和领域不设白名单,综合 Clarity(清晰度)、Credibility(可信度)、Catholicity(普适性)三个 Magi 权衡知识工程的规模化和准确性难题的量化标准来进行来源质量评估。且注重时效性,时效性体现在上文提到的对既有知识的时间线追踪,做到不再周期性触发 batch 更新,整个系统持续在线上学习、聚合、更新、纠错。
三、可塑性和国际化
没有前置 NER 和 dependency parsing 等环节,减少母文本信息的损失。为 Magi 的提取模型设计了专用的 Attention 网络结构以及数个配套的预训练任务。技术栈完全 language-independent,可以实现低资源和跨语言 transfer。
Magi做对了什么?
Magi 官网和季逸超自己也坦承还存在一些不足,比如消歧义、工程性,以及规模化和准确度等。对于搜索慢的问题,季逸超在微博中说,这是由于单次搜索的计算量比一般的网页搜索要重很多。Magi 搜索结果目前还不够好,但这也不妨碍它成为一个未来的搜索引擎方向,给用户提供一个可信任的和理解学习之后的知识。特别是发展在这个 AI 时代,搜索引擎的结果更应该贴近用户的需求。
现在的主流搜索引擎依靠机器抓取,建立在超链分析基础上的网页搜索,采用搜索爬虫和排序算法的组合,以关键词为核心自动检索,实现海量信息的自动获取与重要性排序。作为获取信息的入口,它直接关系到我们获取的信息的质量,也成就了早期的互联网公司。
但现在搜索引擎的过度商业化操作已经引起了用户的反感。Magi 的优势在于去除了商业化的元素,筛除了广告,使搜索到的信息更纯粹,更有价值,节省用户的时间。
季逸超在他的微博里说道:“现在的 Magi 饱含一个工程师朴素的初心,既不想拿广告恶心你,也对你的隐私毫无兴趣。”
Magi 引擎的“火”,说明了搜索引擎在向更好的方向发展。
网友评论