[NLP] BERT官方代码及资料

[NLP] BERT官方代码及资料

作者: nlpming | 来源:发表于2021-12-21 15:49 被阅读0次

[NLP] BERT官方代码及资料
2020自然语言处理 BERT 模型(上)
google-research/bert官方代码中的坑_run_
论文解读：知识图谱融入预训练模型
Bert模型_3分钟热情学NLP第11篇
Bert预训练模型
BERT发展史（一）从词嵌入讲起
五分钟搭建一个基于BERT的NER模型
基于 BERT 的项目实战（NER、Classification
优雅の使用transformer系列之text-classifi

1. 数据集介绍

1.1 GLUE数据集

GLUE数据集官网：https://gluebenchmark.com/
GLUE数据集官方下载脚本：https://github.com/nyu-mll/GLUE-baselines (百度网盘有)
GLUE排行榜：https://gluebenchmark.com/leaderboard

GLUE排行榜.png

GLUE中的9个数据集介绍：

数据集	类别	数量	说明
CoLA	单句二分类任务	训练集 - 8551；验证集 - 1042；测试集 - 1064	判断一个句子，是否合法；0 - 表示不合法，1 - 表示合法。
SST-2	单句二分类任务	训练集 - 67350；验证集 - 873；测试集 - 1822	电影评论情感分析任务，判断一个句子的情感正向-1或者负向-0
MRPC	句对二分类任务	训练集 - 3669；验证集 - 409；测试集 - 1726	判断两个新闻句子，在意思上是否等效。
STS-B	句对回归任务	训练集 - 5750；验证集 - 1501；测试集 - 1380	预测两个句子的语义相似性得分，范围0-5之间；
QQP	句对二分类任务	训练集 - 363871；验证集 - 40432；测试集 - 390965	判断一对问句在语义上是否等效
MNLI	句对三分类任务	训练集 - 392703	判断句对之间的关系：蕴含、矛盾、中立
QNLI	句对二分类任务	训练集 - 104744；验证集 - 5464；测试集 - 5464	判断句对是否蕴含关系
RTE	句对二分类任务	训练集 - 2491；验证集 - 278；测试集 - 3001	判断句对是否蕴含关系
WNLI	句对二分类任务	训练集 - 636；验证集 - 72；测试集 - 147	判断句对是否蕴含关系

1.2 CLUE - 为中文NLP模型定制的自然语言理解基准

官方git地址：https://github.com/CLUEbenchmark/CLUE
官方网址：https://www.cluebenchmarks.com/
CLUE数据集介绍：https://www.cluebenchmarks.com/introduce.html

数据集	类别	数量	说明
AFQMC	句对二分类	训练集（34334）验证集（4316）测试集（3861）	蚂蚁金融语义相似度
TNEWS	单句多分类	训练集(266,000)，验证集(57,000)，测试集(57,000)	今日头条中文新闻，短文本分类任务
IFLYTEK	单句多分类	训练集(12,133)，验证集(2,599)，测试集(2,600)	长文本多分类任务
CMNLI	句对三分类	train(391,782)，matched(12,426)，mismatched(13,880)	语言推理任务：蕴含、中立、矛盾关系
WSC	单句二分类	训练集(532)，验证集(104)，测试集(143)	指代消奇，二分类任务
CSL	单句二分类	训练集(532)，验证集(104)，测试集(143)	论文关键词识别，判断是否包含伪关键词
CMRC2018	问答任务	训练集(短文数2,403，问题数10,142)，试验集(短文数256，问题数1,002)，开发集(短文数848，问题数3,219)	第二届“讯飞杯”中文机器阅读理解评测 (CMRC 2018)
CHID	多句多分类	训练集(84,709)，验证集(3,218)，测试集(3,231)	成语阅读理解填空
C3	问答任务	训练集(11,869)，验证集(3,816)，测试集(3,892)	中文多选阅读理解任务
CLUENER	命名实体识别	训练集：10748 验证集：1343	细粒度命名实体识别
OCNLI	句对二分类任务	训练集：50000+ 验证集：3000 测试集：3000	原生中文自然语言推理任务

2. 从头训练BERT

3. Fine-turning任务

以分类任务为例：run_classifier.py
参考代码：https://github.com/nlpming/bert/blob/master/run_classifier.py
核心代码如下：

create_model 用于创建分类模型，基于BERT模型；

model_fn_builder 用于创建estimator对象；

file_based_input_fn_builder 用于创建input_fn，提供输入数据给model_fn函数；

file_based_convert_examples_to_features 用于生成输入数据，存储成tfrecord格式；

bert官方代码.png

参考资料

【GLUE论文】GLUE: A MULTI-TASK BENCHMARK AND ANALYSIS
PLATFORM FOR NATURAL LANGUAGE UNDERSTANDING
https://openreview.net/pdf?id=rJ4km2R5t7
GLUE基准数据集介绍及下载 https://zhuanlan.zhihu.com/p/135283598
bert分类&序列标注代码（中文BERT模型）：https://github.com/CLUEbenchmark/CLUE
bert-as-service代码：https://github.com/hanxiao/bert-as-service
美团BERT的探索和实践
BERT在美团搜索核心排序的探索和实践
预训练技术在美团到店搜索广告中的应用

相关文章

[NLP] BERT官方代码及资料
1. 数据集介绍 1.1 GLUE数据集 GLUE数据集官网：https://gluebenchmark.com/...
2020自然语言处理 BERT 模型(上)
今天我们想到 NLP 就会想到 BERT，在 NLP 领域中 BERT 到处屠榜。BERT 主要应用于自然语言处理...
google-research/bert官方代码中的坑_run_
[[TOC好像还不支持]] 简介 bert官方代码google-research/bert中有很多很强的设定，稍有...
论文解读：知识图谱融入预训练模型
©NLP论文解读原创•作者|疯狂的Max 背景及动机以BERT为基础的预训练模型在各项NLP任务获得巨大的成功...
Bert模型_3分钟热情学NLP第11篇
3分钟热情学NLP第11篇，Bert模型 BERT ：Bidirectional Encoder Represen...
Bert预训练模型
NLP预训练模型简介旺达一、BERT简单文本分类实例 1、bert详细运行介绍--tensorflow htt...
BERT发展史（一）从词嵌入讲起
BERT发展史（一）从词嵌入讲起 0. 写在前面要说NLP最近最火的是什么，那必是BERT无疑了。强悍如BERT...
五分钟搭建一个基于BERT的NER模型
BERT 简介 BERT是2018年google 提出来的预训练的语言模型，并且它打破很多NLP领域的任务记录，其...
基于 BERT 的项目实战（NER、Classification
1 BERT简介 BERT是2018年google 提出来的预训练的语言模型，并且它打破很多NLP领域的任务记录，...
优雅の使用transformer系列之text-classifi
前言自bert问世之后，如今的NLP行业无论是研究、赛事还是工程上，都会优先使用bert及其衍生模型进行迁移学...

网友评论

本文标题：[NLP] BERT官方代码及资料

本文链接：https://www.haomeiwen.com/subject/nbkitrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|[NLP] BERT官方代码及资料|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！