美文网首页
第一次打卡 Task02

第一次打卡 Task02

作者: 几时见得清梦 | 来源:发表于2020-02-14 19:00 被阅读0次

一、文本预处理

  1. 文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤:
    1.读入文本
    2.分词
    3.建立字典,将每个词映射到一个唯一的索引(index)
    4.将文本从词的序列转换为索引的序列,方便输入模型
    有一些现有的工具可以很好地进行分词,如其中的两个:spaCyNLTK

二、语言模型

一段自然语言文本可以看作是一个离散时间序列,给定一个长度为TT的词的序列,语言模型的目标就是评估该序列是否合理。

三、循环神经网络基础

目的是基于当前的输入与过去的输入序列,预测序列的下一个字符。
我们通常使用困惑度(perplexity)来评价语言模型的好坏。回忆一下“softmax回归”一节中交叉熵损失函数的定义。困惑度是对交叉熵损失函数做指数运算后得到的值。特别地,

  • 最佳情况下,模型总是把标签类别的概率预测为1,此时困惑度为1;
  • 最坏情况下,模型总是把标签类别的概率预测为0,此时困惑度为正无穷;
  • 基线情况下,模型总是预测所有类别的概率都相同,此时困惑度为类别个数。

显然,任何一个有效模型的困惑度必须小于类别个数。在本例中,困惑度必须小于词典大小vocab_size

相关文章

  • 第一次打卡 Task02

    一、文本预处理 文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理...

  • Task02

    一 文本预处理 1 文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预...

  • DataWhale金融风控打卡记录 Task02

    Task02 1.学习目标 1.1学习如何对数据集整体概况进行分析,包括数据集的基本情况(缺失值,异常值) 1.2...

  • Numpy组队学习 Task02打卡

    索引与切片 总结一下Numpy中索引与切片的常用操作,思维导图可以帮助自己快速梳理回顾知识点。个人觉得Numpy作...

  • 2020-02-12 学习篇:组队学习《动手学习深度学习》(一)

    Task01: 线性回归、Softmax与分类模型、多层感知机Task02: 文本预处理、语言模型、循环神经网络基...

  • 5月组队学习02:基于统计学的方法

    Task02:基于统计学的方法(3天) ● 掌握基于高斯分布的异常检测方法 ● 理解非参数异常检测方法 ● 掌握H...

  • TASK02作业—20170612

    TASK: 注明下面词语的词性和意思(有几个写几个): 要求:FAST作为形容词要写成“快的”,不能写成“快” 副...

  • 任务五——task02

    5.2 post 和 get 方式的区别? 在谈到post和get之前的差别之前,我们需要先谈谈什么叫做HTTP。...

  • Task02 几何变换

    2.1 简介 该部分将对基本的几何变换进行学习,几何变换的原理大多都是相似,只是变换矩阵不同,因此,我们以最常用的...

  • DW-李宏毅深度学习打卡- Task02

    Task01: 观看机器学习介绍(1 天) keyword 一、Regression 定义 应用 二、Model ...

网友评论

      本文标题:第一次打卡 Task02

      本文链接:https://www.haomeiwen.com/subject/jnejfhtx.html