美文网首页
[NLP] BERT官方代码及资料

[NLP] BERT官方代码及资料

作者: nlpming | 来源:发表于2021-12-21 15:49 被阅读0次

1. 数据集介绍

1.1 GLUE数据集

GLUE排行榜.png
  • GLUE中的9个数据集介绍:
数据集 类别 数量 说明
CoLA 单句二分类任务 训练集 - 8551;验证集 - 1042;测试集 - 1064 判断一个句子,是否合法;0 - 表示不合法,1 - 表示合法。
SST-2 单句二分类任务 训练集 - 67350;验证集 - 873;测试集 - 1822 电影评论情感分析任务,判断一个句子的情感正向-1或者负向-0
MRPC 句对二分类任务 训练集 - 3669;验证集 - 409;测试集 - 1726 判断两个新闻句子,在意思上是否等效。
STS-B 句对回归任务 训练集 - 5750;验证集 - 1501;测试集 - 1380 预测两个句子的语义相似性得分,范围0-5之间;
QQP 句对二分类任务 训练集 - 363871;验证集 - 40432;测试集 - 390965 判断一对问句在语义上是否等效
MNLI 句对三分类任务 训练集 - 392703 判断句对之间的关系:蕴含、矛盾、中立
QNLI 句对二分类任务 训练集 - 104744;验证集 - 5464;测试集 - 5464 判断句对是否蕴含关系
RTE 句对二分类任务 训练集 - 2491;验证集 - 278;测试集 - 3001 判断句对是否蕴含关系
WNLI 句对二分类任务 训练集 - 636;验证集 - 72;测试集 - 147 判断句对是否蕴含关系

1.2 CLUE - 为中文NLP模型定制的自然语言理解基准

数据集 类别 数量 说明
AFQMC 句对二分类 训练集(34334)验证集(4316)测试集(3861) 蚂蚁金融语义相似度
TNEWS 单句多分类 训练集(266,000),验证集(57,000),测试集(57,000) 今日头条中文新闻,短文本分类任务
IFLYTEK 单句多分类 训练集(12,133),验证集(2,599),测试集(2,600) 长文本多分类任务
CMNLI 句对三分类 train(391,782),matched(12,426),mismatched(13,880) 语言推理任务:蕴含、中立、矛盾关系
WSC 单句二分类 训练集(532),验证集(104),测试集(143) 指代消奇,二分类任务
CSL 单句二分类 训练集(532),验证集(104),测试集(143) 论文关键词识别,判断是否包含伪关键词
CMRC2018 问答任务 训练集(短文数2,403,问题数10,142),试验集(短文数256,问题数1,002),开发集(短文数848,问题数3,219) 第二届“讯飞杯”中文机器阅读理解评测 (CMRC 2018)
CHID 多句多分类 训练集(84,709),验证集(3,218),测试集(3,231) 成语阅读理解填空
C3 问答任务 训练集(11,869),验证集(3,816),测试集(3,892) 中文多选阅读理解任务
CLUENER 命名实体识别 训练集:10748 验证集:1343 细粒度命名实体识别
OCNLI 句对二分类任务 训练集:50000+ 验证集:3000 测试集:3000 原生中文自然语言推理任务

2. 从头训练BERT

3. Fine-turning任务

  1. create_model 用于创建分类模型,基于BERT模型;
  2. model_fn_builder 用于创建estimator对象;
  3. file_based_input_fn_builder 用于创建input_fn,提供输入数据给model_fn函数;
  4. file_based_convert_examples_to_features 用于生成输入数据,存储成tfrecord格式;
bert官方代码.png

参考资料

相关文章

网友评论

      本文标题:[NLP] BERT官方代码及资料

      本文链接:https://www.haomeiwen.com/subject/nbkitrtx.html