[NLP比赛推荐]商品标题实体识别

作者: 致Great | 来源:发表于2022-03-09 01:41 被阅读0次

[NLP比赛推荐]商品标题实体识别
NLP入门（四）命名实体识别（NER）
NLP 的命名实体识别 Jieba
自然语言处理NLP知名的公司和开放API
学习
NLP入门（五）用深度学习实现命名实体识别（NER）
NLP（十四）自制序列标注平台
NLP（二十四）利用ALBERT实现命名实体识别
模型固化（深度神经网络+crf分词以及NER）
CRF 实现中文分词与词性标记

比赛链接 https://www.heywhale.com/home/competition/620b34ed28270b0017b823ad/content/3

1 赛题背景

京东商品标题包含了商品的大量关键信息，商品标题实体识别是NLP应用中的一项核心基础任务，能为多种下游场景所复用，从标题文本中准确抽取出商品相关实体能够提升检索、推荐等业务场景下的用户体验和平台效率。本赛题要求选手使用模型抽取出商品标题文本中的实体。
与传统的实体抽取不同，京东商品标题文本的实体密度高、实体粒度细，赛题具有特色性。

2 比赛数据

本赛题数据来源于特定类目的京东商品标题短文本，分为有标注样本和无标注样本，供选手选择使用。
数据格式：训练集数据每一行第一列为一个字符或空格（汉字、英文字母、数字、标点符号、特殊符号、空格），第二列为BIO形式的标签，两列以空格分隔。
两条标注样本之间以空行为分割。
训练集：有标注训练样本：4万条左右（包括验证集，不再单独提供验证集，由选手自己切分；总量根据baseline模型效果可能会稍作调整）；无标注样本：100万条。
初赛A榜测试集：1万条（与训练样本格式相同，差异仅在于无标注）
初赛B榜测试集：1万条（与训练样本格式相同，差异仅在于无标注）
复赛测试集：1万条（与训练样本格式相同，差异仅在于无标注）
决赛测试集：1万条（与训练样本格式相同，差异仅在于无标注）
标注样本示例：

👉点击下载样例（右键存储或者左键+Ctrl/command+S）
实体说明：
实体共有52种类型，均已经过脱敏处理，用数字代号1至54表示（不包含27和45）；其中“O”为非实体。标签中“B”代表一个实体的开始，“I”代表一个实体的中间或者结尾。“-”后的数字代号表示该字符的实体类型。
值得注意的是实体不仅仅与实体词有关，而且与当前标题所售卖商品有关。举例说明，一个售卖产品为手机壳的商品标题中出现的“iPhone13”与售卖产品为手机的商品标题中出现的“iPhone13”为不同的实体标签。

3 数据下载

数据名称	数据描述	下载链接
数据样例	初赛训练集数据样例	👉🏻点击下载

4 提交要求

选手针对测试数据提交预测结果文件，结果文件格式和标注样本完全一致（txt格式），每一行第一列为一个字符或空格（汉字、英文字母、数字、标点符号、特殊符号、空格），第二列为BIO形式的标签，两列以空格分隔，两条标注样本之间以空行为分割。
结果文件内容举例：

Image Name

👉点击下载样例（右键存储或者左键+Ctrl/command+S）

5 评测标准

本赛题采用实体级别的micro F1值作为排名依据。
记测试集真实标注实体结果为：G ={g1, g2, g3,…, gn}, 预测结果为S = {s1, s2, s3, …, sn}，其中每个元素为实体词及其类型，按照在标题中出现的顺序排列。

Image Name

复赛阶段，将根据模型在单卡GPU（NVIDIA T4，或者同等算力的GPU卡）上的推理耗时对micro F1值进行惩罚：
1）如果模型在单卡上单条数据的平均推理时间<math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>t</mi><mrow class="MJX-TeXAtom-ORD"><mi>i</mi><mi>n</mi><mi>f</mi><mi>e</mi><mi>r</mi><mi>e</mi><mi>n</mi><mi>c</mi><mi>e</mi></mrow></msub></math>小于360ms，不做惩罚；
2）反之，如果<math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>t</mi><mrow class="MJX-TeXAtom-ORD"><mi>i</mi><mi>n</mi><mi>f</mi><mi>e</mi><mi>r</mi><mi>e</mi><mi>n</mi><mi>c</mi><mi>e</mi></mrow></msub></math>大于360ms，需要乘以一定的惩罚系数，具体如下：

Image Name

6 其他说明

允许使用外部数据，但在复赛开始前需要发布到赛题系统公开区；
不限制使用开源框架；
无标注数据提供给参赛者作为NLP预训练的选项；
参赛者在模型中可自行发挥进行标注格式转换，只需保证提交结果为BIO格式；
只允许产出一个模型；
复赛阶段，模型在单卡（NVIDIA T4，或者同等算力的GPU卡）上单条数据的推理时间要小于360ms，如果超过360ms，会根据推理耗时进行惩罚。

网友评论

本文标题：[NLP比赛推荐]商品标题实体识别

本文链接：https://www.haomeiwen.com/subject/zunzrrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

[NLP比赛推荐]商品标题实体识别

1 赛题背景

2 比赛数据

3 数据下载

4 提交要求

5 评测标准

6 其他说明

相关文章

[NLP比赛推荐]商品标题实体识别

NLP入门（四）命名实体识别（NER）

NLP 的命名实体识别 Jieba

自然语言处理NLP知名的公司和开放API

学习

NLP入门（五）用深度学习实现命名实体识别（NER）

NLP（十四）自制序列标注平台

NLP（二十四）利用ALBERT实现命名实体识别

模型固化（深度神经网络+crf分词以及NER）

CRF 实现中文分词与词性标记

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

[NLP比赛推荐]商品标题实体识别

1 赛题背景

2 比赛数据

3 数据下载

** 4 提交要求**

5 评测标准

6 其他说明

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

4 提交要求