中文bert wwm 预训练参考笔记

中文bert wwm 预训练参考笔记

作者: 锦绣拾年 | 来源:发表于2021-07-07 23:32 被阅读0次

wwm-bert
中文bert wwm 预训练参考笔记
Bert基础介绍
如何将Bert句向量应用于深度神经网络中
BERT
feature-based 和 fine-tune
Bert预训练模型
NLP领域的基本任务和研究方向
Bert笔记
15 分钟搭建一个基于XLNET的文本分类模型——keras实战

https://github.com/huggingface/transformers/tree/1c06240e1b3477728129bb58e7b6c7734bb5074e/examples/research_projects/mlm_wwm

pytorch使用bert预训练基本步骤，
构造参数，加载bertmasklm模型，然后构建数据集，使用trainer进行训练

但是当我们想用https://github.com/ymcui/Chinese-BERT-wwm中的模型继续训练时，构建wwm数据集会比较麻烦，Google到 transformers 4.7.0+里封装了可以帮助实现中文wwm数据构造的方法。
首先需要用run_chinese_ref.py 构建中文切词参考文件，即把bert每一个训练语句中，切割成词的开头位置标记出来。
然后将中文切词参考文件这部分数据加入原有训练数据中，并且设置：
training_args.remove_unused_columns = False

https://github.com/huggingface/transformers/blob/1c06240e1b3477728129bb58e7b6c7734bb5074e/examples/research_projects/mlm_wwm/run_mlm_wwm.py

有时候不想用行进行分割数据集，希望按照block切割数据集，即510个字符为一段训练数据，这时可以先自行切割存成csv文件，然后构建中文切词参考文件和 load_dataset时对csv文件进行操作即可。

相关文章

wwm-bert
中文说明 | English 中文预训练BERT-wwm（Pre-Trained Chinese BERT wit...
中文bert wwm 预训练参考笔记
https://github.com/huggingface/transformers/tree/1c06240e...
Bert基础介绍
BERT理解 1、预训练模型 BERT是一个预训练的模型，那么什么是预训练呢？假设已有A训练集，先用A对网络进行...
如何将Bert句向量应用于深度神经网络中
Bert开源了预训练的中文模型,如果你想直接使用Bert模型生成句子向量(当做一个黑盒),并用于深度学习模型中,本...
BERT
与Elmo/GPT相比，bert的改进bert预训练的方式、input representationfine-tu...
feature-based 和 fine-tune
Feature-based 以bert预训练语言模型为例，bert使用大规模无标注数据训练了一个transform...
Bert预训练模型
NLP预训练模型简介旺达一、BERT简单文本分类实例 1、bert详细运行介绍--tensorflow htt...
NLP领域的基本任务和研究方向
基础性研究网络架构 Transformer→BERT→预训练语言模型优化理论 Lookahead 对抗训练虚...
Bert笔记
本文会尽可能详细的介绍BERT的结构，预训练方法细节一 BERT的结构 BERT的具体结构如下图所示，其只用到了...
15 分钟搭建一个基于XLNET的文本分类模型——keras实战
今天笔者将简要介绍一下后bert 时代中一个又一比较重要的预训练的语言模型——XLNET ，下图是XLNET在中文...

网友评论

本文标题：中文bert wwm 预训练参考笔记

本文链接：https://www.haomeiwen.com/subject/dfqzultx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|中文bert wwm 预训练参考笔记|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！