CS224n笔记01 自然语言处理与深度学习简介

作者: DeamoV | 来源:发表于2018-10-23 23:27 被阅读14次

CS224n笔记01 自然语言处理与深度学习简介
CS224n 笔记1-自然语言处理与深度学习简介
学习资料参考：从深度学习到自然语言处理
《基于深度学习的自然语言处理》中英pdf
TensorFlow实现序列标注：用bi-LSTM+CRF和字符
CS224n笔记1:自然语言处理简介
CS224n自然语言处理与深度学习 Lecture Notes
浅谈自然语言处理基础（上）
中文文本处理工具库 — jieba
自然语言学习路线图

cs224n-2017-lecture1.png.jpeg

简单声明

本笔记为 CS224n 课程在学习过程中留下的笔记。整体风格以简洁为主，尽量去掉不必要的背景知识说明，只留下个人觉得最重要的内容以供日后参考回忆。其中部分内容为了巩固英语，可能会因为方便采用英文记录。

课程先决条件

Python基础知识
高等数学、概率论、线性代数知识
基础机器学习算法
- 梯度下降
- 线性回归
- 逻辑回归
- Softmax
- SVM
- PAC
  注：斯坦福CS229 / 周志华西瓜书

本课学习收获总览

整体自然语言处理的流程
深度学习的 NLP 和之前的有什么区别
NLP 的难点在哪里

自然语言处理的总览

image

Phonetic : representing speech sounds by means of symbols that have one value only
Phonology ： the phonetics and phonemics of a language at a particular time
Morphology：a study and description of word formation (such as inflection, derivation, and compounding) in language
Syntactic：of, relating to, or according to the rules of syntax or syntactics

根据上述 Webstar 词典的翻译我们可以看到，这个整个过程很像是通信领域信号的发出和接受的过程。自然语言处理系统的输入分为两个部分，一个是文本的输入（我们暂且不谈），另一个则是语音的输入。好的，我们收到了语音，我们都知道这些语音不一定都是标准的，可能还带有方言之类的，所以我们首先要分析它，也就是第一个圈圈。之后由于单词的变形有很多，所以我们要把它们全部变换成原本的形式，也就是 Morphological Analysis 这个过程。之后，再进行语法（Syntactic）分析，最后再进行语义（Semantic Interpretation）理解。

NLP 为什么难

Complexity in representing, learning and using linguistic/situational/world/visual knowledge
Human languages are ambiguous (unlike programming and other formal languages)
Human language interpretation depends on real world, common sense, and contextual knowledge

机器学习 VS 深度学习

如下图所示，传统的机器学习中很大一部分人工部分是人力的去观察你的数据，然后从中人为的提出特征，这需要消耗大量的人力，甚至这个人力还必须由有博士学位的专家才能做，而机器只是代替人类做了人类不容易做到的对算法调优的过程。

image

那么深度学习 (Deep Learning) 是什么呢，首先从宏观的来讲深度学习隶属于表征学习（Representation Learning），即特征学习（Feature learning）。正如其名，表征学习就是自动的从原始数据中提取分类和特征提取（feature detection）所需要的特征（representation），也就是说深度学习可以做之前机器学习中人力的那部分内容。

宏观结束了，进入微观理解，如下图所示，深度学习中是一个多层的网络，每一层都会学习出一部分特征，然后将这些特征喂给下一层，这个学习过程可以反复的去修正 / 训练这些提出的特征，效率高。

image

最后，大家在学机器学习的时候都知道有两种机器学习，一种是有监督学习，一种是无监督学习。深度学习两者都能做，这点是真的有点厉害。

其他总结

这堂课中有一个很重要的总结，就是在所有的 NLP 学习 Level 中，所有字的表达和其表达的含义（representations for words and what they actually represent）都是用向量(Vectors)来代替的。这点非常重要，特此记录。

CS224n笔记01 自然语言处理与深度学习简介
简单声明本笔记为 CS224n 课程在学习过程中留下的笔记。整体风格以简洁为主，尽量去掉不必要的背景知识说明，只...
CS224n 笔记1-自然语言处理与深度学习简介
1 自然语言处理简介我们从讨论“什么是NLP”开始本章的内容 1.1 NLP有什么特别之处自然（人工）语言为什...
学习资料参考：从深度学习到自然语言处理
学习资料参考：从深度学习到自然语言处理注意：本文已经更新，新版结合深度学习简介和发展历程，给出了更详尽的学习资料...
《基于深度学习的自然语言处理》中英pdf
《基于深度学习的自然语言处理》中文PDF，274页，带书签目录，文字可以复制。《基于深度学习的自然语言处理》英文P...
TensorFlow实现序列标注：用bi-LSTM+CRF和字符
简介：我记得我第一次听说深度学习在自然语言处理（NLP）领域的魔力。我刚刚与一家年轻的法国创业公司Rimind...
CS224n笔记1:自然语言处理简介
关键词：自然语言处理（NLP），词向量（Word Vectors），奇异值分解（Singular Value De...
CS224n自然语言处理与深度学习 Lecture Notes
本笔记主要内容翻译自斯坦福大学CS224n: Natural Language Processing with D...
浅谈自然语言处理基础（上）
本系列第三篇，承接前面的《浅谈机器学习基础》和《浅谈深度学习基础》。自然语言处理绪论什么是自然语言处理？自然...
中文文本处理工具库 — jieba
网易云课堂AI工程师（自然语言处理）学习笔记，接上一篇英语文本处理工具库2 — spaCy》。 1、jieba简介...
自然语言学习路线图
01 完整路线第一部分：机器学习基础篇第一章：自然语言处理概述 1. 自然语言处理的现状与前景 2. 自然语言...