一文本预处理

1 文本是一类序列数据，一篇文章可以看作是字符或单词的序列，本节将介绍文本数据的常见预处理步骤，预处理通常包括四个步骤：

读入文本

分词

建立字典，将每个词映射到一个唯一的索引（index）

将文本从词的序列转换为索引的序列，方便输入模型

二语言模型

一段自然语言文本可以看作是一个离散时间序列，给定一个长度为的词的序列，语言模型的目标就是评估该序列是否合理，即计算该序列的概率

通过马尔可夫假设简化模型，马尔科夫假设是指一个词的出现只与前面 $n$ 个词相关，即 $n$ 阶马尔可夫链

在随机采样中，每个样本是原始序列上任意截取的一段序列，相邻的两个随机小批量在原始序列上的位置不一定相毗邻

在相邻采样中，相邻的两个随机小批量在原始序列上的位置相毗邻

循环神经网络引入一个隐藏变量 $H$ ，用 $Ht$ 表示在时间步 $t$ 的值。 $Ht$ 的计算基于 $Xt$ 和 $Ht-1$ ，可以认为 $Ht$ 记录了到当前字符为止的序列信息，利用 $Ht$ 对序列的下一个字符进行预测

本文标题：Task02

本文链接：https://www.haomeiwen.com/subject/isvkfhtx.html