Task02

作者: 浅草微微暖_4b93 | 来源:发表于2020-02-13 14:29 被阅读0次

    一 文本预处理

    1 文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤:

    读入文本

    分词

    建立字典,将每个词映射到一个唯一的索引(index)

    将文本从词的序列转换为索引的序列,方便输入模型

    2 现有工具

    spaCyNLTK

    二 语言模型

    一段自然语言文本可以看作是一个离散时间序列,给定一个长度为的词的序列,语言模型的目标就是评估该序列是否合理,即计算该序列的概率

    1 n元语法

    通过马尔可夫假设简化模型,马尔科夫假设是指一个词的出现只与前面n个词相关,即n阶马尔可夫链

    2 随机采样

    在随机采样中,每个样本是原始序列上任意截取的一段序列,相邻的两个随机小批量在原始序列上的位置不一定相毗邻

    3 相邻采样

    在相邻采样中,相邻的两个随机小批量在原始序列上的位置相毗邻

    三 循环神经网络基础

    循环神经网络引入一个隐藏变量H,用Ht表示在时间步t的值。Ht的计算基于XtHt-1,可以认为Ht记录了到当前字符为止的序列信息,利用Ht对序列的下一个字符进行预测

    1 循环神经网络的构造

    相关文章

      网友评论

          本文标题:Task02

          本文链接:https://www.haomeiwen.com/subject/isvkfhtx.html