美文网首页
NLP 学习资源

NLP 学习资源

作者: 红烧肉_2121 | 来源:发表于2021-01-08 17:34 被阅读0次

    2021年 1月31日 贪心学院高级课程 课程拼团

    PART1: 基础篇

    1. 自然语言处理概述

    | 什么是自然语言处理

    | 自然语言处理的现状和前景

    | 自然语言处理应用

    | 自然语言处理经典任务

    | 学习自然语言处理技术

    1. 数据结构与算法基础

    | 时间复杂度、空间复杂度

    | 斐波那契数列的时间和空间复杂度

    | 动态规划算法

    | 经典的DP问题

    | 练习:DP问题的代码解法

    | 专题:时序分析中的DTW算法

    1. 机器学习基础 - 逻辑回归

    | 分类问题以及逻辑回归重要性

    | 逻辑回归的条件概率

    | 最大似然估计

    | 构建逻辑回归的目标函数

    | 优化与梯度下降法

    | 随机梯度下降法

    | 练习:从零实现逻辑回归

    | 案例:预测客户是否开设银行账户

    1. 机器学习基础 - 模型的泛化

    | 理解什么是过拟合

    | 如何防止过拟合现象

    | L1与L2正则

    | 交叉验证

    | L1正则与拉普拉斯分布

    | L2正则与高斯分布

    | 练习:从零实现逻辑回归+L2正则

    | 练习:从零实现K折交叉验证

    | 案例:预测一个学生是否能及格

    1. 机器学习基础 - 其他机器学习模型

    | KNN算法

    | 朴素贝叶斯

    | 决策树

    | 随机森林

    | 案例:预测保险电话是否能打通

    PART2: 文本处理技术

    1. 分词、词的标准化、过滤

    | 文本分析流程

    | 中英文的分词

    | 最大匹配算法

    | 基于语言模型的分词

    | Stemming和Lemmazation

    | 停用词的使用

    | 拼写纠错问题

    | 编辑距离的实现

    | 暴力搜索法

    | 基于后验概率的纠错

    | 练习:基于jieba的分词

    | 练习:基于NLTK的分词

    | 案例:从零实现拼写纠错

    1. 文本的表示

    | 单词的独热编码表示

    | 句子的独热编码表示

    | tf-idf表示

    | 句子相似度比较

    | 独热编码下的单词语义相似度

    | 从独热编码到词向量

    | 词向量的可视化、句子向量

    | 练习:词向量的可视化

    8.【项目作业】豆瓣电影评分预测

    | 数据描述以及任务

    | 中文分词

    | 独热编码、tf-idf

    | 分布式表示与Word2Vec

    | BERT向量

    | 句子向量

    | 项目:豆瓣电影评分预测

    1. 词向量技术

    | 独热编码表示的优缺点

    | 独热编码与分布式表示的比较

    | 静态词向量与动态词向量

    | 学习词向量 - 分布式假设

    | SkipGram与CBOW

    | SkipGram模型的目标

    | 负采样(Negative Sampling)

    | 基于矩阵分解的词向量学习

    | 基于Glove的词向量学习

    | 在非欧式空间中的词向量学习

    | 案例:基于SkipGram的推荐

    | 案例:从零实现Word2Vec算法

    1. 【项目作业】智能客服问答系统

    | 问答系统和应用场景

    | 问答系统搭建流程

    | 文本的向量化表示

    | FastText

    | 倒排表技术

    | 问答系统中的召回

    | 问答系统中的排序

    | 项目:搭建知乎智能客服系统

    1. 语言模型

    | 语言模型的必要性

    | 马尔科夫假设

    | Unigram语言模型

    | Bigram、Trigram语言模型

    | 语言模型的评估

    | 语言模型的平滑技术

    | 案例:基于语言模型的语法纠错 (中文)

    PART3: 经典的序列模型

    1. 隐马尔科夫模型

    | HMM的应用

    | HMM的参数

    | HMM的推理过程和维特比算法

    | 前向、后向算法

    | Complete Case中的参数估计

    | Incomplete Case中的参数估计

    | 案例:从零完整实现HMM

    | 案例:基于HMM实现词性分析器

    1. 无向图模型与标记偏置

    | 有向图与无向图

    | 无向图中的特征函数

    | 生成模型与判别模型

    | 从HMM到MEMM

    | MEMM中的标记偏置问题

    1. Linear-CRF模型

    | Log-Linear模型介绍

    | Log-Linear与逻辑回归

    | 从Log-Linear到Linear-CRF

    | Log-Linear中的参数估计

    | Linear-CRF中的Partition函数计算

    | Linear-CRF的参数估计

    | 案例:从零实现Linear-CRF

    | 案例:基于CRF的词性分析

    1. 【项目作业】基于Liner-CRF的医疗实体识别

    | 命名实体识别介绍

    | 训练数据的准备

    | 特征工程

    | 结果的评估标准

    | 训练模型和测试模型

    | 项目:利用CRF抽取并识别医疗文本中的实体

    PART4: 自然语言处理与深度学习

    1. 深度学习基础

    | 理解神经网络

    | 各类常见的激活函数

    | 理解多层神经网络

    | 反向传播算法

    | 神经网络中的过拟合

    | 浅层模型与深层模型对比

    | 深度学习中的层次表示

    | 练习:从零实现多层神经网络

    | 练习:激活函数的实现技巧

    | 案例:基于神经网络的人脸识别

    1. Pytorch的使用

    | 环境安装

    | Pytorch与Numpy的语法比较

    | Pytorch中的Autograd用法

    | Pytorch的Forward函数

    | 案例:基于Pytorch的逻辑回归实现

    | 案例:基于Pytorch的多层神经网络实现

    1. RNN与LSTM

    | 从HMM到RNN模型

    | RNN中的梯度问题

    | 解决梯度爆炸问题

    | 梯度消失与LSTM

    | LSTM到GRU

    | 双向LSTM模型

    | 基于LSTM的生成

    | 练习:利用Pytorch实现RNN/LSTM

    | 案例:基于LSTM的情感分析

    | 案例:利用LSTM生成代码

    | 案例:利用LSTM写文章

    1. Seq2Seq模型与注意力机制

    | 浅谈机器翻译

    | Seq2Seq模型

    | Greedy Decoding

    | Beam Search

    | 长依赖所存在的问题

    | 注意力机制

    | 注意力机制的不同实现

    | 练习:利用Pytorch实现Seq2Seq模型

    | 练习:Beam Search的实现

    | 案例:基于Seq2Seq的机器翻译

    1. 【项目作业】智能营销文案生成

    | 任务描述,数据讲解

    | 构建Seq2Seq模型

    | Beam Search的改造

    | 模型调优

    | 评估标准 Rouge

    | Pointer-Generator Network

    | PGN与Seq2Seq的融合

    | 项目:智能营销文案生成

    1. 动态词向量与ELMo技术

    | 基于上下文的词向量技术

    | 图像识别中的层次表示

    | 文本领域中的层次表示

    | 深度BI-LSTM

    | ELMo模型

    | ELMo的训练与测试

    | ELMo的优缺点

    | 案例:利用ELMo训练词向量

    1. 自注意力机制与Transformer

    | 基于LSTM模型的缺点

    | Transformer结构概览

    | 理解自注意力机制

    | 位置信息的编码

    | 理解Encoder与Decoder区别

    | 理解Transformer的训练和预测

    | Transformer的缺点

    | 练习:从零实现Transformer

    | 案例:基于Transformer的机器翻译

    1. BERT与ALBERT

    | 自编码器介绍

    | Transformer Encoder

    | Masked LM

    | BERT模型

    | BERT模型不同训练方式

    | ALBERT

    | 练习:从零实现BERT模型

    | 练习:从零实现ALBERT模型

    | 案例:基于BERT-BiLSTM-CRF的命名实体识别

    1. 【项目作业】基于闲聊的对话系统搭建

    | 对话系统介绍

    | 常见的对话系统技术

    | 闲聊型对话系统框架

    | 语料库的准备

    | 数据的处理

    | 项目:基于闲聊的对话系统搭建

    1. BERT的其他变种

    | RoBERTa模型

    | SpanBERT模型

    | FinBERT模型

    | 引入先验知识

    | K-BERT

    | KG-BERT

    | 案例:基于KG-BERT的知识图谱学习

    1. GPT与XLNet

    | Transformer Encoder回顾

    | GPT-1,GPT-2

    | GPT-3

    | ELMo的缺点

    | 语言模型下同时考虑上下文

    | Permutation LM

    | 双流自注意力机制

    | Transformer-XL

    | XLNet总结

    PART5: 信息抽取

    1. 命名实体识别与实体消歧

    | 信息抽取的应用和关键技术

    | 命名实体识别

    | NER识别常用技术

    | 实体消歧技术

    | 实体消歧常用技术

    | 实体统一技术

    | 指代消解

    | 案例:利用相似度算法解决实体消歧问题

    1. 关系抽取

    | 关系抽取的应用

    | 基于规则的方法

    | 基于监督学习方法

    | Bootstrap方法

    | Distant Supervision方法

    | 练习:从零实现基于规则的方法

    | 练习:从零实现Bootstrap方法

    | 案例:抽取研报中的关键指标和数据

    1. 句法分析

    | 句法分析以及应用

    | CFG介绍

    | 从CFG到PCFG

    | 评估语法树

    | 寻找最好的语法树

    | CKY算法

    1. 依存文法分析

    | 从语法分析到依存文法分析

    | 依存文法分析的应用

    | 使用依存文法分析

    | 基于图算法的依存文法分析

    | 基于Transtion-based的依存文法分析

    | 其他依存文法分析方法论

    | 案例:依存文法分析在信息抽取中的应用

    1. 知识图谱

    | 知识图谱以及重要性

    | 知识图谱中的实体和关系

    | 利用非结构化数据构造知识图谱

    | 知识图谱的设计

    | 案例:基于知识图谱的风控案例

    | 案例:基于知识图谱的个性化教学

    1. 【项目作业】搭建基于医疗知识图谱的问答系统(01.06)

    | 基于知识图谱的问答系统框架

    | 医疗专业词汇的使用

    | 获取问句的意图

    | 问句的解释,提取关键实体

    | 讲意图和关键信息转化为查询语句

    | 把查询结果转化为自然语言的形式

    | 项目:搭建基于医疗知识图谱的问答系统

    PART6: 图神经网络与模型压缩

    1. 模型的压缩

    | 模型压缩的必要性

    | 常见的模型压缩算法总览

    | 基于矩阵分解的压缩技术

    | 从BERT到ALBERT的压缩

    | 基于贝叶斯模型的压缩技术

    | 模型的量化

    | 模型的蒸馏方法

    | 案例:利用Distillation压缩Transformer模型(01.06)

    | 案例:利用Distillation压缩Seq2Seq模型(01.06)

    1. 基于图的学习

    | 图的表示

    | 图与知识图谱

    | 基于图表示的应用场景

    | 关于图的一些常见算法

    | Deepwalk和Node2vec

    | TransE图嵌入模型

    | DSNE图嵌入模型

    | 案例:基于人工特征的朋友关系预测

    | 案例:基于Node2Vec的推荐系统

    1. 图神经网络

    | 卷积神经网络的回顾

    | 图神经网络发展历程

    | 设计图中的卷积操作

    | 图中的信息传递

    | 图卷积神经网络(GCN)

    | 练习:从零实现GCN模型

    | 案例:基于GCN的Twitter网络分析

    | 案例:基于GCN的商品推荐

    1. GraphSage与GAT

    | GCN的优缺点

    | 从GCN到GraphSage

    | 注意力机制回顾

    | 注意力机制与图表示

    | GAT模型详解

    | GAT与GCN的比较

    | 对于Heterogenous数据处理

    | 练习:从零实现GAT模型

    | 案例:基于GAT的商品推荐

    | 案例:基于GAT的虚假新闻检测

    1. 【项目作业】新闻文本摘要生成 (01.06)

    | 文本摘要生成任务介绍和应用场景

    | 基于抽取式的摘要提取技术

    | 关键句子的提取技术

    | 基于图神经网络的摘要生成方法

    | 基于生成式的摘要提取技术

    | Seq2Seq、Transformer模型的使用

    | 文本摘要系统的评估指标

    | 项目:文本摘要生成项目

    1. 方法1: 抽取式方法a: 基于图神经网络来做关键语句的抽取 Heterogeneous Graph Neural Networks for Extractive Document Summarization. Danqing Wang, Pengfei Liu, Yining Zheng, Xipeng Qiu, Xuanjing Huang. ACL 2020 [pdf] [code]

    方法2:生成式方式a: (Transformer, BERT)

    方法3:生成式方式b:Seq2Seq

    beam search

    经典模型 +一点点改进

    1. 图神经网络与其他应用

    | Node Classification

    | Graph Classification

    | Link Prediction

    | Community Detection

    | 推荐系统中的应用

    | 文本分类中的应用

    | 图神经网络的未来发展

    有意愿添加QQ :1098420516

    https://uai.greedyai.com/details/15#team

    相关文章

      网友评论

          本文标题:NLP 学习资源

          本文链接:https://www.haomeiwen.com/subject/ibmfaktx.html