百度NLP十年布局：翻越认知智能高山，架起通往现实世界的桥

作者: Alter聊IT | 来源:发表于2020-08-26 08:55 被阅读0次

百度NLP十年布局：翻越认知智能高山，架起通往现实世界的桥
架起通往星辰的桥
【006】致Kin 6 白色韵律的世界桥
教学是架起两个世界的桥梁
翻越那座高山
翻越小高山
翻越330高山
今日晨语（十四）
诗游中国之从新都桥到亚丁
架起一座桥，通往过去，看见未来！

自然语言处理（NLP）是人工智能皇冠上的一颗明珠。

这样的说法在人工智能领域流传许久，现实中发生的却是这样一幕：计算机视觉、语音识别等领域纷纷跑出了多个独角兽，冲刺IPO的消息也时常出现。可作为“皇冠上的明珠”的NLP领域，却难见独角兽的影子，大多数创业者还停留在A轮或B轮融资。

NLP如何走出困局？

在NLP领域深耕十年，被称作“中国NLP灯塔”的百度给出了切实的答案。8月25日举行的百度大脑语言与知识技术峰会上，伴随着一系列语言与知识产品的发布与升级，百度NLP的全景布局和钻研了十几年的核心技术一一亮相。

（百度CTO王海峰）

01 翻越认知智能的高山

把时间调回一个多月前的ACL 2020。

作为NLP领域最负盛名的国际顶会，ACL 2020收到了3429 篇论文投稿，其中被接收的779篇论文中有185 篇来自中国大陆，占比仅次于美国。距离2010年首次有中国科技企业的论文入选ACL，仅仅过去了10年时间。

除了论文数量的逐年增长，中国NLP学者的面孔也陆续在ACL上出现。

2013年，百度CTO王海峰成为ACL历史上首位华人主席；2014 年，同样来自百度的吴华出任 ACL 程序委员会主席；2015年，哈工大教育部语言语音重点实验室主任李生教授获得 ACL 终身成就奖；2016 年，百度的赵世奇当选 ACL 秘书长；2018年，ACL 宣布创建亚太区域分会，王海峰担任创始主席；2020 年，百度组织了 ACL 大会上首场同声传译研讨会……

以百度为代表的中国力量在NLP的世界舞台上不断出彩，本身就是一种话语权的象征，而左右话语权的核心因素正是学术成就。

仅以百度为例，过去十年是百度NLP高速增长的十年，在NLP领域摘得了包括国家科技进步奖在内的20多个奖项，在30多项国际竞赛中夺得冠军，累计发表的学术论文超过300篇，专利申请高达2000多项。

其中最具代表性的无疑就是百度的语义理解技术与平台文心（ERNIE）。

2019年12月，基于ERNIE 2.0改进的模型在权威榜单GLUE上首次突破90大关，超越人类基线3个点，获得全球第一；3个月后的人工智能顶级会议AAAI 2020上，NLP预训练领域入选论文《ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding》被选为Oral展示；2020年的世界人工智能大会上，ERNIE有了中文名字“文心”，并一举斩获最高奖项SAIL奖(Super AI Leader，卓越人工智能引领者)。

学术上的一系列成就，意味着百度已经站在了NLP研究的最前沿，成为中国NLP领域的领军者，并与谷歌、微软一道被视为“全球AI三巨头”。

可对于百度来说，技术的价值绝不只是在象牙塔中“高光”，在NLP的学术领域走进殿堂的同时，也在循序推进应用场景中的落地。

刚刚结束的百度大脑语言与知识技术峰会上，第一个重磅产品就是在NLP核心技术基础上延展开发的文心ERNIE——语义理解技术与平台，针对传统NLP定制常见的成本高、耗时长、可迭代性差等短板，文心集成了优秀的预训练模型、全面的NLP算法集、端到端开发套件和平台化服务，提供了一站式NLP开发与服务。

这或许就是百度给出的答案，想要推动NLP的产业应用，仅仅在学术上站在山巅还不够，需要的是帮助整个行业翻越认知智能的高山，以低门槛、低成本、高效率的平台优势加速NLP的落地。

正如百度CTO王海峰所言，百度“致力于更好的与学术界、产业界携手，推动语言与知识技术发展，进而推动人工智能技术持续进步，为产业持续升级、社会经济高质量发展贡献力量。”

02 走进行业应用的深处

以往在谈及NLP的应用门槛时，最常见的回答有两个：一是技术相对落后的硬伤，二是缺乏相对独立的场景。

对于第一个问题，经过大量真实应用场景淬炼的文心ERNIE已经给出了解决方案，全面降低了NLP的定制开发成本。

（百度集团副总裁吴甜）

引用百度集团副总裁吴甜分享的一组数据：在数据标注方面，文心的语义理解能力可以降低90%的数据标注量；在算力方面，文心集成了ERNIE预训练模型，可以节省90%的算力；在开发时长方面，传统的开发方式需要一周的工作量，开发者在文心上仅需配置或编写少量代码，可以减少85%模型开发时长，进而全面降低NLP定制开发的成本。

对于第二个问题，针对NLP落地应用时的高频场景，百度新发布或升级了一站式的场景化解决方案：

其一，面向企业文本场景的智能文档分析平台TextMind。

语义理解是NLP的基础，也是应用场景最广泛的服务。比如大多数企业的商业合同仍采用人工审核的方式，存在效率低下、漏查漏报等商业风险，TextMind基于OCR、NLP等技术，可以对20类文档进行智能比对、解析、审核，与知识图谱能力结合后能够自动分析合同中隐含的法律风险。

其二，面向媒体行业进行场景升级的智能创作平台。

百度智能创作平台上线至今，已经自动创作了200多万篇文章、超过15万条短视频、辅助创作的日均调用量超过35万，累计落地20多家机构媒体。同时围绕策、采、编、审的媒体工作场景，百度推出智能策划、智能采编、智能审校三大场景方案，帮助媒体降低创作成本，提升创作效率。

其三，面向交互场景升级的智能对话定制与服务平台UNIT。

UNIT上线以来已经服务了超过2.7万开发者，支撑了超过10万个智能对话应用，积累的知识条目总量达到2.4亿，与用户进行了超过4200亿次交互。全新升级后的UNIT进一步降低了任务式对话、智能问答的定制成本，其中数据标注成本降低了30%以上，并且融合了新一代对话引擎以提升交互体验。

其四，面向翻译场景全新发布的AI同传会议解决方案。

AI同传并不是什么陌生的概念，百度在2017年就推出了同传系统，衍生出了桌面助手、翻译APP等产品。AI同传会议解决方案主打的亮点是全场景、全流程，只需要一台电脑和一部手机，就能迅速搭建出一套同传服务，不仅可以随时对专业术语进行干预，还能自动生成会议记录。

值得一提的是，百度瞄准的四个场景分别对应了NLP领域的理解、生成、对话、翻译，这样的设计绝非无意之举。

过去十年的时间里，百度语言与知识技术培养吸引了大量的全球顶尖人才，推出了以王海峰为代表的百度NLP“十年十人”。这些顶尖大牛们的技术信仰和探索精神，既向外界展示了百度的技术硬实力，也让外界看到了百度加速NLP走向行业深处的拳拳之心。

03 产业智能的百度方案

至于百度这般赋能NLP行业的原因，可以借鉴百度CTO王海峰的观点：“在百度语言与知识技术的布局和发展中，我们始终在注意把握两个趋势，即技术发展趋势和产业发展趋势，并力争引领趋势。”

对于技术趋势的理解，可以借用这样一个比方：感知智能是AI感知外部环境的能力，包括听觉、视觉和触觉，相当于人类的耳朵、眼睛和手；认知智能是AI理解、联想、推理的能力，需要AI像人一样思考并解决问题。

倘若AI的进化停留在感知智能，在认知智能层面停滞不前，终将无法摆脱上两次人工智能浪潮的宿命。如何加速认知智能的越级？仅仅有仁人志士的奔走呼告还远远不够，刺激一个行业走向繁荣的驱动力量还是诱人的商业前景。

某种程度上说，NLP领域并不缺少琳琅满目的技术，诸如语义分析、情感分析、机器翻译、知识图谱等层出不穷，可大多只是一个引擎或者一个特定功能上的服务。

百度所做的正是擦去蒙在“明珠”上的灰尘，然后融合新基建、产业智能化的趋势，将自身领先的NLP能力输出给开发者与合作伙伴，并在不断的创新和探索中找到了NLP规模化应用的方法论：

首先是基础技术的平台化。NLP的算法和模型是典型的脑力劳动，结果就是在人才、资源和场景上占据优势的巨头们有着绝对的话语权。从百度大脑的开放，到飞桨深度学习平台的开源，再到文心ERNIE语义理解技术与平台的上线，本质上都是以平台的形式对外赋能，降低整个行业的进入门槛和开发成本。

其次是核心能力的场景化。一些企业可能并不具备底层开发的能力，百度的对策是针对文本分析、对话系统、机器翻译等高频场景推出一体化的解决方案，开发者只需要进行简单的配置或修改。毕竟NLP的难点在于落地时牵涉到深度学习、情感模型等等，场景化消除了不必要的开发环节和资源投入。

然后是细分应用的产品化。对于智能搜索、智能推荐、智慧城市、智慧医疗等各行各业的应用，百度的策略是与合作伙伴一道打造独立的产品，以零门槛的形式提供服务。比如以API、插件、APP等模式对外服务的百度翻译，目前已经支持40多万家第三方应用，每天响应超过千亿字符的翻译请求。

除此之外，为了解决NLP在模型鲁棒性、可解释性、跨模态语义理解等方面依然面临的挑战，百度联合中国计算机学会、中国中文信息学会共同发布了“千言”数据共建计划。

同时百度技术委员会主席吴华发布了算力共享计划，通过数据集的共建与算力的共享，继而从语义理解、知识融合、跨模态融合等角度推动技术进步。

做一个总结的话，在NLP应用落地的话题上，百度从来都不是一成不变的守旧者，而是根据行业现状不断变通，通过持续性的场景落地，逐步唤醒外界对NLP的价值认可。当整个行业都在重新审视NLP的时候，距离全面爆发已不再遥远。

04 写在最后

曾经被问到百度NLP的理想和抱负是什么时，王海峰凝练了十二个字的回答：“理解语言，拥有智能，改变世界”。

如今再来思考这句话的内涵，无疑有了更为准确的理解。“改变世界”的梦想显然不是算法改变世界那般狭隘，在新基建和产业智能化的浪潮下，百度已经确定了平台型AI的定位，风光无限的NLP部门一面在学术上推动语言与知识技术发展，一面在应用上帮助开发者们破除桎梏。

十年征程，百度NLP部门不仅在造一座灯塔，还在架一道技术通往现实世界的桥。

百度NLP十年布局：翻越认知智能高山，架起通往现实世界的桥
自然语言处理（NLP）是人工智能皇冠上的一颗明珠。这样的说法在人工智能领域流传许久，现实中发生的却是这样一幕：计...
架起通往星辰的桥
茅以升说：“人生之路崎岖多于平坦，忽似深谷，忽似洪涛，好在有桥梁可以渡过，桥梁的名字叫什么呢？叫‘奋斗’！” ...
【006】致Kin 6 白色韵律的世界桥
白色韵律的世界桥，连接内心微笑，架起一座桥梁笑一笑，十年少
教学是架起两个世界的桥梁
今天是我们共读第二天。常老师通过故事“一起架起心的桥梁，”告诉我们老师与学生之间要架起一座桥，这座桥能通往彼此心灵...
翻越那座高山
不管你愿不愿意，在你追求成长的路程中，总是会出现一些障碍，跨越这些障碍就如翻越一座座山。小障碍就是小山，大障碍就是...
翻越小高山
《翻越小高山》触手高天倚山巅，朝霞浮动五彩色。松柏苍翠邀青春，疾风劲草尽欢乐。回望邛海叠风浪，遥思泸湖...
翻越330高山
2022.11.20 周日翻越330高山上周日，虹悦城朋友盛情邀请下，我们几位跑者相聚在中兴路膳食唐梅山厅，一...
今日晨语（十四）
翻越地上的高山需要登攀，翻越心中的高山需要转念。一念之转，悲喜皆欢。
诗游中国之从新都桥到亚丁
告别新都桥，开始新征程。（一）翻越高尔寺，天路十八弯。爬过剪子弯，高山草垫宽。勇登卡子拉，四川最高山。一...
架起一座桥，通往过去，看见未来！
登录简书后，发现自己竟是是5年多的老用户，由于长期不登陆不更新，已经被平台把以前的账号取消了，真是汗颜，如果没有平...