美文网首页
第一次打卡 Task02

第一次打卡 Task02

作者: 几时见得清梦 | 来源:发表于2020-02-14 19:00 被阅读0次

    一、文本预处理

    1. 文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤:
      1.读入文本
      2.分词
      3.建立字典,将每个词映射到一个唯一的索引(index)
      4.将文本从词的序列转换为索引的序列,方便输入模型
      有一些现有的工具可以很好地进行分词,如其中的两个:spaCyNLTK

    二、语言模型

    一段自然语言文本可以看作是一个离散时间序列,给定一个长度为TT的词的序列,语言模型的目标就是评估该序列是否合理。

    三、循环神经网络基础

    目的是基于当前的输入与过去的输入序列,预测序列的下一个字符。
    我们通常使用困惑度(perplexity)来评价语言模型的好坏。回忆一下“softmax回归”一节中交叉熵损失函数的定义。困惑度是对交叉熵损失函数做指数运算后得到的值。特别地,

    • 最佳情况下,模型总是把标签类别的概率预测为1,此时困惑度为1;
    • 最坏情况下,模型总是把标签类别的概率预测为0,此时困惑度为正无穷;
    • 基线情况下,模型总是预测所有类别的概率都相同,此时困惑度为类别个数。

    显然,任何一个有效模型的困惑度必须小于类别个数。在本例中,困惑度必须小于词典大小vocab_size

    相关文章

      网友评论

          本文标题:第一次打卡 Task02

          本文链接:https://www.haomeiwen.com/subject/jnejfhtx.html