pytorch: Transformers实战

作者: 不太聪明的亚子 | 来源:发表于2020-08-28 09:39 被阅读0次

pytorch: Transformers实战
【干货】史上最全的PyTorch学习资源汇总
pytorch：Transformers入门（二）
pytorch: Transformers入门（三）
pytorch：Transformers入门（四）
pytorch: Transformers入门（一）
将TF-checkpoint 文件转换为 pytorch-che
huggingface Transformer 框架速览笔记汇
Transformer 相关阅读材料
新书：PyTorch深度学习入门与实战

之前学习了Transformers的用法，然后实战了一波，效果那是杠杠的，现在简单总结一下吧，列出的代码均为关键代码，需按照自己任务要求完善。

1. 数据预处理

中文/英文：标点，特殊符号，中文中的停用词等都没有去掉，原本是什么亚子还是什么亚子。

除了文本数据外，还有label，或者其他需要的特征，可以放到一个data{‘content’， ‘label’, ...}字典中，用于传入自定义dataset类。

2. 自定义Dataset类

输入的数据是原始模样，经过自定义dataset类处理后就可以输入到Bert模型中啦。

def __init__(self, data, VOCAB, max_sen_len,...):

self.tokenizer = BertTokenizer.from_pretrained(VOCAB)

self.max_sen_len = max_sen_len

self.content = data['content']

self.label = torch.from_numpy(data['label'])

构造函数中的VOCAB = './model/bert-base-multilingual-cased/vocab.txt'

max_sen_len 是规定模型要处理的最大句子长度

self.content就是原始文本数据

def __getitem__(self, idx):

text_content = self.tokenizer(self.tweet_content, add_special_tokens = True, padding = 'max_length', truncation = True, max_length = self.max_sen_len, return_tensors = 'pt')

#给数据加上[CLS],[END]等符号，没到最大长度的要padding，超过最大长度的要截断，返回张量

text_input_ids = text_content['input_ids'] #给每个token编号

token_type_ids = text_content['token_type_ids'] #区分属于哪句话

attention_mask = text_content['attention_mask'] #padding部分为0，不参与attention计算

return text_input_ids[idx], token_type_ids[idx], attention_mask[idx], self.label[idx]

def __len__(self):

print('len:{}'.format(len(self.label)))

return len(self.label)

3. 模型准备

我使用的是bert多语言模型，【bert-base-multilingual-cased】，首先在代码文件的当前目录新建一个文件夹，命名为【bert-base-multilingual-cased】，然后需要去官网下载3个文件，分别是配置文件config.json，模型参数文件pytorch_model.bin，词表voca.txt：

注：下载方式，鼠标右键，选择链接另存为，保存到刚刚创建的文件夹里，就以上图名字命名保存。

4. 模型class

def __init__(self, CASED, bert_hidden_dropout_prob, ...):

self.config = BertConfig.from_pretrained(self.CASED, hidden_dropout_prob = self.bert_hidden_dropout_prob)

self.bert = BertModel.from_pretrained(self.CASED, config = self.config)

在class定义的 __init__函数中self.config和self.bert就是我们用到的bert模型，其中,

self.CASED = './model/bert-base-multilingual-cased/'，也就是存放下载好的模型文件的文件夹路径

def forward(self, text_input_ids, token_type_ids, attention_mask,...):

bert_output = self.bert(input_ids = text_input_ids, token_type_ids = token_type_ids, attention_mask = attention_mask)

forward函数的输入包括text_input_ids, token_type_ids, attention_mask，这些都是通过Bert中的tokenizer得到的（dataset类中处理）。

self.bert输出的是一个元组，其中第一个值是模型最后一层输出的隐含层状态序列，第二个值是最后一层隐含层状态序列经过一层全连接和Tanh激活后，第一个toekn对应位置的输出，这两个一直都会输出，后面还有在特定条件下的输出，请看pytorch: Transformers入门（三） - 简书

5. main函数中

在main函数中只需要把初始化需要的参数准备好，按照以下步骤进行即可：

（1）读取原始数据，得到各个特征（文本，label等）

（2）传入dataset，构造dataloader

（3）初始化模型

（4）定义损失函数和优化器

（5）训练...

后面有时间总结一个pytorch训练，测试模型的完整demo吧，这是我一直想干的事情

网友评论

本文标题：pytorch: Transformers实战

本文链接：https://www.haomeiwen.com/subject/bcmksktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

pytorch: Transformers实战

相关文章