美文网首页NLP&NLU
2019达观杯信息抽取比赛总结

2019达观杯信息抽取比赛总结

作者: 柴柴总 | 来源:发表于2019-09-26 17:59 被阅读0次

本文主要记录下自己这两个月参加比赛的过程和经验

  • 赛题描述

达观信息抽取比赛提供了一个脱敏数据集,训练集有17000条,测试集为3000条,此外还有一个一百万条的未标注语料可用于训练预训练模型。任务为在3个字段(a, b, c)上进行识别,o为非实体标签举个栗子:给定一行文本1_2_3_4_5_6_7_8_9,通过模型算法后输出1_2_3_4/o 5_6_7_8/c 9/o

  • 思路

实体识别可以当作是序列标注问题,因而所有的序列标注模型都可以应用到这个任务上
首先要把原始数据转化为BIO或BIOE格式(我的模型用的是BIOE)
如5_6_7_8/c转化为
5 B-c
6 I-c
7 I-c
8 E-c
(B代表实体的开始 I为实体中间 E结束)

  • 基本模型

预训练模型: word2vec elmo
基本模型使用了实体识别最流行的bilstm + crf

  • 比赛过程中不同模型的线上结果记录

50维word2vec + bilstmcrf 0.85
300维word2vec + bilstmcrf 0.87
1024维elmo + bilstm 0.89
1024维elmo + bilstm + 数据增强 0.90
1024维elmo + bilstm + 数据增强 + 简单集成 0.91

  • 经验总结

就是。。。一定要用预训练模型,整个比赛过程对效果帮助最大的是elmo的使用,基于word2vec + bilstmcrf 调参往死里调也超不过0.87,一引入elmo直接到0.89

相关文章

  • 2019达观杯信息抽取比赛总结

    本文主要记录下自己这两个月参加比赛的过程和经验 赛题描述 达观信息抽取比赛提供了一个脱敏数据集,训练集有17000...

  • 信息抽取(IE)工具总结

    信息抽取(information extraction) 是从自然语言文本中抽取出特定的事件或事实信息,帮助我们将...

  • 信息抽取

    1.Open Information Extraction 2.https://github.com/twjian...

  • 信息抽取

    最近关注一些长文本信息抽取的东西,现在简单做一个小结。 信息抽取主要包括三类 实体识别 关系抽取 事件提取。 一个...

  • 信息抽取

    什么是信息抽取? 信息抽取是指在预定的表格栏目里填写内容,内容从文本中自动摘录 传统的自然语言理解旨在模拟人的语言...

  • 知识图谱学习笔记(五)——实体识别(1)

    实体识别(信息抽取) 1. 信息抽取概述 信息抽取定义:从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,...

  • 蓝桥杯比赛总结

    这次蓝桥杯做的一塌糊涂。 印象比较深的是倒数第二个大题,是排序相关。记得java里面有个自带的排序方法sort,底...

  • 达观杯 LogisticRegression 简单实现分析

    1 比赛地址 “达观杯”文本智能处理挑战赛 2 数据 数据包含2个csv文件: train_set.csv:此数据...

  • 2019-08-07看比赛:欧冠杯 02:30 布鲁日 VS 基

    2019-08-07 欧冠杯 02:30 布鲁日 VS 基辅迪纳摩 主队信息: 布鲁日上场比赛以6-0击败圣图尔登...

  • 2019-06-10看足球:欧洲杯-马其顿 VS 奥地利

    2019-06-11 欧洲杯 02:45 马其顿 VS 奥地利 主队信息: 马其顿上场比赛以0-1败给波兰,小组赛...

网友评论

    本文标题:2019达观杯信息抽取比赛总结

    本文链接:https://www.haomeiwen.com/subject/kgodyctx.html