我们拿到的数据是微博上的一条条推文(公开数据),内容有汉字有数字也有各种特殊符号,目标呢,是做成一个词典,方便后续进行one-hot编码,然后计算word_embedding。
1. 只保留中文字符、分词
2. 给词典中每个词one-hot编码,返回一个字典,格式:{词: one-hot编码}
词典中:
one-hot后:
然后把每个词通过torch.nn.Embedding转换成设定维度的词向量
我们拿到的数据是微博上的一条条推文(公开数据),内容有汉字有数字也有各种特殊符号,目标呢,是做成一个词典,方便后续进行one-hot编码,然后计算word_embedding。
1. 只保留中文字符、分词
2. 给词典中每个词one-hot编码,返回一个字典,格式:{词: one-hot编码}
词典中:
one-hot后:
然后把每个词通过torch.nn.Embedding转换成设定维度的词向量
本文标题:中文数据预处理
本文链接:https://www.haomeiwen.com/subject/htnmlltx.html
网友评论