正所谓“无总结,不进步”。发几篇文章总结梳理一下对AI学习的成果(NLP自然语言处理方向),学习的方法就是最质朴的大道理 - “多问几个为什么”,我会像杠精一样用“为什么”剥丝抽茧来梳理所有学到的知识点,所有东西来自我的理解和总结,纯手工一个个字码出来的,不到位的地方欢迎大家补充:
首先明确四点很重要的“根”:
1. 计算的本质:计算机喜欢“简单”输入,它不害怕高并行的计算。深度学习就是遵循了这个道理,如CNN更喜欢窄而深的多层隐层,而不喜欢宽而短的少数几层;RNN成也萧何,败也萧何,因为具备序列依赖性导致可以“记忆”,也因为这个原因导致并行计算力大大受限,现在被Transfomer迎头赶上。GPU大行其道在图像和计算上胜过CPU也是具备这个原理, 多核高并行计算。所以在具备大量矩阵计算的深度学习训练数据下,GPU是CPU速度的几倍甚至十几倍.

2. 机器学习的本质:就是一群统计学者数学家用一系列公式来搭建模型,通过输入数据来输出预测的值,对数据的分类等。深度学习只是机器学习的一个分支,也是因为计算机计算力的大幅提升,现今天深度学习变得越来越火热。但是深度学习火的这几年该解决的都解决了,解决不了的也就解决不了了。所以未来新的研究方向还是从机器学习的几大算法里演变出来,不过怎么变也会服从第一点提到的计算的本质,简单输入但是超大的高并行计算。
3. 深度学习的本质:一层一层提取特征。比如CNN来识别图像,第一层来提取特征后看到细颗粒度的图像比如轮廓,第二层提取后看到稍微粗一点的颗粒度比如形状,第三层看到更粗一点颗粒度的图像,这样一层一层最后来提取出清晰的图像特征。RNN也差不多这个意思,比如第一层提取词义,第二层提取句法,第三层提取句义等等,一层层来提取。
4. NLP的本质:说白了,就是这句话说出来像不像人话,贝叶斯是核心。比如P(I am working now) = 0.9, P(I now am working) = 0.2 其中P(I)P(am|I)P(working|I,am)*P(now|I,am,working) =0.9 无论是NNLM,RNN,LSM,GRU等其实都是一步一步来模拟这个概率的。这个后面详细展开。
网友评论