Task02

作者: 浅草微微暖_4b93 | 来源:发表于2020-02-13 14:29 被阅读0次

一 文本预处理

1 文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤:

读入文本

分词

建立字典,将每个词映射到一个唯一的索引(index)

将文本从词的序列转换为索引的序列,方便输入模型

2 现有工具

spaCyNLTK

二 语言模型

一段自然语言文本可以看作是一个离散时间序列,给定一个长度为的词的序列,语言模型的目标就是评估该序列是否合理,即计算该序列的概率

1 n元语法

通过马尔可夫假设简化模型,马尔科夫假设是指一个词的出现只与前面n个词相关,即n阶马尔可夫链

2 随机采样

在随机采样中,每个样本是原始序列上任意截取的一段序列,相邻的两个随机小批量在原始序列上的位置不一定相毗邻

3 相邻采样

在相邻采样中,相邻的两个随机小批量在原始序列上的位置相毗邻

三 循环神经网络基础

循环神经网络引入一个隐藏变量H,用Ht表示在时间步t的值。Ht的计算基于XtHt-1,可以认为Ht记录了到当前字符为止的序列信息,利用Ht对序列的下一个字符进行预测

1 循环神经网络的构造

相关文章

  • Task02

    一 文本预处理 1 文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预...

  • 2020-02-12 学习篇:组队学习《动手学习深度学习》(一)

    Task01: 线性回归、Softmax与分类模型、多层感知机Task02: 文本预处理、语言模型、循环神经网络基...

  • 5月组队学习02:基于统计学的方法

    Task02:基于统计学的方法(3天) ● 掌握基于高斯分布的异常检测方法 ● 理解非参数异常检测方法 ● 掌握H...

  • DataWhale金融风控打卡记录 Task02

    Task02 1.学习目标 1.1学习如何对数据集整体概况进行分析,包括数据集的基本情况(缺失值,异常值) 1.2...

  • TASK02作业—20170612

    TASK: 注明下面词语的词性和意思(有几个写几个): 要求:FAST作为形容词要写成“快的”,不能写成“快” 副...

  • 任务五——task02

    5.2 post 和 get 方式的区别? 在谈到post和get之前的差别之前,我们需要先谈谈什么叫做HTTP。...

  • Task02 几何变换

    2.1 简介 该部分将对基本的几何变换进行学习,几何变换的原理大多都是相似,只是变换矩阵不同,因此,我们以最常用的...

  • ife task2 踩坑记录

    介绍 task02地址这个task是结合了css样式和html的任务,需要将所学的html和css结合起来,在写的...

  • Task02:条件循环结构

    条件语句 1.1 if 语句 1.2 if - else 语句 1.3if - elif - else 语句 1....

  • 动手学深度学习-Task02

    任务名称 文本预处理;语言模型;循环神经网络基础 学习心得 1、鉴于自己从事NLP已有一段时间,因此该部分还是稍微...

网友评论

      本文标题:Task02

      本文链接:https://www.haomeiwen.com/subject/isvkfhtx.html