美文网首页
[NLP比赛推荐]商品标题实体识别

[NLP比赛推荐]商品标题实体识别

作者: 致Great | 来源:发表于2022-03-09 01:41 被阅读0次

    比赛链接 https://www.heywhale.com/home/competition/620b34ed28270b0017b823ad/content/3

    1 赛题背景

    京东商品标题包含了商品的大量关键信息,商品标题实体识别是NLP应用中的一项核心基础任务,能为多种下游场景所复用,从标题文本中准确抽取出商品相关实体能够提升检索、推荐等业务场景下的用户体验和平台效率。本赛题要求选手使用模型抽取出商品标题文本中的实体。
    与传统的实体抽取不同,京东商品标题文本的实体密度高、实体粒度细,赛题具有特色性。

    2 比赛数据

    1. 本赛题数据来源于特定类目的京东商品标题短文本,分为有标注样本和无标注样本,供选手选择使用。

    2. 数据格式:训练集数据每一行第一列为一个字符或空格(汉字、英文字母、数字、标点符号、特殊符号、空格),第二列为BIO形式的标签,两列以空格分隔。

    3. 两条标注样本之间以空行为分割。

    4. 训练集:有标注训练样本:4万条左右(包括验证集,不再单独提供验证集,由选手自己切分;总量根据baseline模型效果可能会稍作调整);无标注样本:100万条。
      初赛A榜测试集:1万条(与训练样本格式相同,差异仅在于无标注)
      初赛B榜测试集:1万条(与训练样本格式相同,差异仅在于无标注)
      复赛测试集:1万条(与训练样本格式相同,差异仅在于无标注)
      决赛测试集:1万条(与训练样本格式相同,差异仅在于无标注)

    5. 标注样本示例:


      👉点击下载样例(右键存储或者左键+Ctrl/command+S)

    6. 实体说明:
      实体共有52种类型,均已经过脱敏处理,用数字代号1至54表示(不包含27和45);其中“O”为非实体。标签中“B”代表一个实体的开始,“I”代表一个实体的中间或者结尾。“-”后的数字代号表示该字符的实体类型。
      值得注意的是实体不仅仅与实体词有关,而且与当前标题所售卖商品有关。举例说明,一个售卖产品为手机壳的商品标题中出现的“iPhone13”与售卖产品为手机的商品标题中出现的“iPhone13”为不同的实体标签。

    3 数据下载

    数据名称 数据描述 下载链接
    数据样例 初赛训练集数据样例 👉🏻点击下载

    ** 4 提交要求**

    选手针对测试数据提交预测结果文件,结果文件格式和标注样本完全一致(txt格式),每一行第一列为一个字符或空格(汉字、英文字母、数字、标点符号、特殊符号、空格),第二列为BIO形式的标签,两列以空格分隔,两条标注样本之间以空行为分割。
    结果文件内容举例:

    Image Name

    👉点击下载样例(右键存储或者左键+Ctrl/command+S)

    5 评测标准

    本赛题采用实体级别的micro F1值作为排名依据。
    记测试集真实标注实体结果为:G ={g1, g2, g3,…, gn}, 预测结果为S = {s1, s2, s3, …, sn},其中每个元素为实体词及其类型,按照在标题中出现的顺序排列。

    Image Name

    复赛阶段,将根据模型在单卡GPU(NVIDIA T4,或者同等算力的GPU卡)上的推理耗时对micro F1值进行惩罚:
    1) 如果模型在单卡上单条数据的平均推理时间<math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>t</mi><mrow class="MJX-TeXAtom-ORD"><mi>i</mi><mi>n</mi><mi>f</mi><mi>e</mi><mi>r</mi><mi>e</mi><mi>n</mi><mi>c</mi><mi>e</mi></mrow></msub></math>小于360ms,不做惩罚;
    2) 反之,如果<math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>t</mi><mrow class="MJX-TeXAtom-ORD"><mi>i</mi><mi>n</mi><mi>f</mi><mi>e</mi><mi>r</mi><mi>e</mi><mi>n</mi><mi>c</mi><mi>e</mi></mrow></msub></math>大于360ms,需要乘以一定的惩罚系数,具体如下:

    Image Name

    6 其他说明

    1. 允许使用外部数据,但在复赛开始前需要发布到赛题系统公开区;
    2. 不限制使用开源框架;
    3. 无标注数据提供给参赛者作为NLP预训练的选项;
    4. 参赛者在模型中可自行发挥进行标注格式转换,只需保证提交结果为BIO格式;
    5. 只允许产出一个模型;
    6. 复赛阶段,模型在单卡(NVIDIA T4,或者同等算力的GPU卡)上单条数据的推理时间要小于360ms,如果超过360ms,会根据推理耗时进行惩罚。

    相关文章

      网友评论

          本文标题:[NLP比赛推荐]商品标题实体识别

          本文链接:https://www.haomeiwen.com/subject/zunzrrtx.html