美文网首页
中文数据预处理

中文数据预处理

作者: 不太聪明的亚子 | 来源:发表于2021-04-18 22:23 被阅读0次

我们拿到的数据是微博上的一条条推文(公开数据),内容有汉字有数字也有各种特殊符号,目标呢,是做成一个词典,方便后续进行one-hot编码,然后计算word_embedding。


1. 只保留中文字符、分词

2. 给词典中每个词one-hot编码,返回一个字典,格式:{词: one-hot编码}

词典中:

one-hot后:

然后把每个词通过torch.nn.Embedding转换成设定维度的词向量

相关文章

网友评论

      本文标题:中文数据预处理

      本文链接:https://www.haomeiwen.com/subject/htnmlltx.html