美文网首页
NLP比赛-小布助手对话短文本语义匹配

NLP比赛-小布助手对话短文本语义匹配

作者: 致Great | 来源:发表于2021-01-12 22:21 被阅读0次

全球人工智能技术创新大赛
赛道三: 小布助手对话短文本语义匹配

赛题背景

小布助手是OPPO公司为欧加集团三品牌手机和IoT设备自研的语音助手,为用户提供了有趣、贴心、便捷的对话式服务。意图识别是对话系统中的一个核心任务,而对话短文本语义匹配是意图识别的主流算法方案之一。本赛题要求参赛队伍根据脱敏后的短文本query-pair,预测它们是否属于同一语义,提交的结果按照指定的评价指标使用在线评测数据进行评测和排名,得分最优者获胜。

赛题描述及数据说明

训练数据

训练数据包含输入query-pair,以及对应的真值。初赛训练样本10万,复赛训练样本30万,这份数据主要用于参赛队伍训练模型,为确保数据的高质量,每一个样本的真值都有进行人工标注校验。每行为一个训练样本,由query-pair和真值组成,每行格式如下:

query-pair格式:query以中文为主,中间可能带有少量英文单词(如英文缩写、品牌词、设备型号等),采用UTF-8编码,未分词,两个query之间使用\t分割。

真值:真值可为0或1,其中1代表query-pair语义相匹配,0则代表不匹配,真值与query-pair之间也用\t分割。

训练数据样本举例(空白间隔为\t):
肖战的粉丝叫什么名字 肖战的粉丝叫什么 1
王者荣耀里面打野谁最厉害 王者荣耀什么英雄最好玩 0
我想换个手机 我要换手机 1
我是张睿 我想张睿 0
不想 不想说 0

测试数据

脱敏后的query-pair数据,初赛采用A/B榜的方式,A榜和B榜样本规模分别为5万,发布时间以赛制为准,初赛队伍根据初赛B榜排名择优进入复赛;复赛采用单榜方式,样本规模5万(与初赛不重复),复赛队伍根据复赛排名择优进入现场答辩。

测试数据样本举例(空白间隔为\t)

肖战的粉丝叫什么名字 肖战的粉丝叫什么
王者荣耀里面打野谁最厉害 王者荣耀什么英雄最好玩
我想换个手机 我要换手机
我是张睿 我想张睿
不想 不想说

提交说明

选手针对测试数据提交预测结果文件,结果文件中每行为一个预测值,是0与1之间的一个浮点数,代表query-pair语义匹配的概率,与测试数据每行一一对应。

结果文件内容举例

0.001
0.999

评估标准

比赛的评估标准由性能标准和效果标准两部分组成,初赛采用效果标准,AUC 指标,具体定义 如下:

其中:

rank(i):表示i这个样本的预测得分在测试集中的排序;

M:测试集中语义匹配的样本的个数;

N:测试集中语义不匹配的样本的个数。

复赛阶段将同时考虑性能标准和效果标准,效果标准继续采用 AUC 指标,性能标准是约束条件,在 复赛阶段需要在限定时间内完成预测,具体要求详见复赛开始前提供的“容器镜像”页面。

比赛规则

本项比赛全程不允许使用外部数据集。
允许使用预训练模型,如网络模型与embedding等。
复赛阶段允许使用初赛阶段的数据集。

相关文章

  • NLP比赛-小布助手对话短文本语义匹配

    全球人工智能技术创新大赛赛道三: 小布助手对话短文本语义匹配 赛题背景 小布助手是OPPO公司为欧加集团三品牌手机...

  • 短文本匹配算法综述

    Abstract 短文本匹配是指使用 NLP 模型预测两个文本的语义相关性,很多领域内都有它的身影,比如:信息检索...

  • 【入门必读】深入浅出了解人工智能的方方面面

    前言 什么是ai,什么是nlp,人工智能(对话的助手、图像识别)是怎么实现的,又是怎么应用的。在入行语音语义产品之...

  • 百度语义计算

    前记 最近做一些文本匹配相关的事,有两篇百度的nlp相关讲得不错 百度语义计算技术及其应用 语义表示 从基于ter...

  • 献给学习NLP的同学们[持续更新ing]

    NLP资源汇总 NLP四大任务类型:分类、序列标注、文本匹配、文本生成练习地址:https://github.co...

  • NLP | 文本匹配算法

    01 贪婪策略 今天我们调用python中的一个自然语言处理包nltk,来实现一个MaxMatch文本匹配算法。 ...

  • 基于深度语义匹配,上下文相关的问答系统

    智能问答与知识库广泛应用于寿险智能客服、对话机器人、个人助手等产品里。该论文提出一种基于深度语义匹配和深度学习排序...

  • 搜索引擎 - 京东个性化召回DPSR模型

    简介 当前电商搜索系统面临的两个主要挑战如下:(1)文本不匹配,语义匹配的商品召回;(2)召回结果的个性化; 本文...

  • 第4节:更多的文本任务和技术

    四、词向量后的nlp更多应用-机器翻译、文本分类… 有了具备语义信息的词向量,很多文本任务就可以运行起来了 一般的...

  • NLP-Tools

    摘要 本文提供并介绍一个NLP模型工具箱,能够完成“分类”,“序列标注”,“文本匹配”和“文本生成”这四种常见的N...

网友评论

      本文标题:NLP比赛-小布助手对话短文本语义匹配

      本文链接:https://www.haomeiwen.com/subject/qocyaktx.html