1.图像识别
最简单的是全连接神经网络,之后使用CNN,在CNN基础上提高识别率:结构上变深,如VGG,还有网中网结构inception,以及预处理中一些图像增强策略,还有dropout等技巧。
2.Deep Dream观察网络学到了什么
将一张噪声图不断优化,调整像素值,使得其为分类成某一类的概率达到最大,从而展现网络学到的认为该类物体的模样。可用拉普拉斯金字塔生成更高质量的图像,以某背景图为起点,就可以在这张背景图生成所需要的特征,如让书上长出狮子。
3.目标检测
R-CNN遵循提取框、对每个框提取特征、图像分类、非极大值抑制四个步骤。此外,还有SPPNet、Fast R-CNN、Faster R-CNN四种算法,以及Google的开源Tensorflow Object Detection API。
4.人脸识别和检测
MTCNN算法,基于卷积神经网络的一种高精度实时人脸检测和对齐技术。最后提取特征后有两种损失定义方法使得聚类效果更佳。
5.图像风格迁移
Prisma就可以将普通照片风格进行转化,其中机理就是使用卷积层的中间特征还原出对应这种特征的原始图像。
6.GAN和DCGAN
两个神经网络,一个负责生成图像,一个负责判断是否真实,相互对抗,从而使得最后能够生成逼真图像,而DC则添加了一些小细节,选了深度网络。
7.pix2pix模型
cGAN会根据指定标签生成样本,而pix2pix则是cGAN特殊形式。
8.超分辨
从pix2pix出发进行
9.CycleGAN
10.Char RNN文本生成
输入字符,输出下一个字符的概率
LSTM为RNN的改进版,多了遗忘门,记忆门,输出门。
Char RNN中汉字表示可用embedding层来转化稠密
Tensorflow中有RNNCell为实现RNN的基本单元
11.输入为序列,输出为类别的RNN
可用来解决文本分类,时间序列分类,音频分类等等。
12.词的向量表示
word2vec又称词嵌入,分为CBOW和Skip-Gram两种,想法是将词义相近的映射到相邻处,采用预测的过程来学习映射,而CBOW是通过上下文预测单词,Skip-Gram可理解为反过来。
13.机器翻译
Encoder-Decoder模型,称为Seq2Seq模型,先将输入向量Encoder到神经网络对句子的理解,再将理解的向量Decoder,变成输出序列。
注意力机制就是对输入序列加上系数,机器自动学习系数。
Tensorflow NMT可以用来搭神经网络翻译引擎。
14.看图说话
又叫image caption,可以从Encoder-Decoder出发,但是Encoder的最后输出的改成视觉特征即可,即将Encoder RNN改成CNN。
改进包括:
1.加入注意力机制
2.加入高层语义
15.强化学习
Q Learning学习Q函数,,s表示状态,a表示行为。
SARSA(State-Action-Reward-State-Action),也是迭代式学习Q函数,采取了和Q Learning 不同的更新策略。效果来说,各有优劣,SARSA更加保守。
DQN采取深度神经网络来表示Q函数,也称为Deep Q Learning。
16.策略梯度(Policy Gradient)
不再学习Q函数,直接通过模型输出所需要采取的动作。
网友评论