美文网首页
《deep learning》前两周课程总结

《deep learning》前两周课程总结

作者: liuchungui | 来源:发表于2019-08-27 17:38 被阅读0次

    AI发展迅速,特别是NLP,一会是Bert,一会是GPT-2,热火朝天。禁不住,我几个月前也想重新好好学习一下深度学习,并且用它做点东西。前几天,看《哈佛幸福课》的时候就说了,想做什么事情,不要拖着说等个什么契机再做,要立刻行动,行为改变态度。

    于是,上个周末,我终于计划好学习计划,重新开始学习。学习深度学习,当然从吴恩达的《deep learning》开始,原理讲得很透彻也很易懂,适合我这种没什么基础的。下面,是我这个周末学习笔记。

    一、神经网络和深度学习(第一周)

    1、Relu全称是修正性单元,它的函数示例大概如下图:

    image.png

    2、一个简单的神经网络

    image.png

    例如:由房子大小、房间数量、邮政编码、富裕程度这个四个输入x,来决定最终的价格,也就是y。

    注意:上面的圆圈,在神经网络中叫做隐藏单元。其中上面的x1,x2,x3,x4代表输入层,也就是4个特征。

    最终,可以参考下图:

    image.png

    3、神经网络可以处理结构化数据,也可以处理非结构化数据

    结构化数据:一般是我们数据库中的数据,例如Mysql中表的数据

    非结构化数据:音频数据、图片数据、文本数据等等

    4、神经网络分类

    (1)基本的神经网络

    (2)CNN也就是卷积神经网络,专门用来做图像识别等

    (3)RNN循环神经网络,它主要用来处理一维的时间序列数据,例如音频数据、文本数据。

    5、神经网络为什么突然这么厉害了?

    image.png

    参考上图:

    1、当在数据量小的时候,也许一些机器学习算法,因为设计的更好,可能会被深度学习表现更好,所以小数据集时,并不能确定算法优劣。

    2、而只有当数据量变得很大时,大型的神经网络才表现出更优异的结果。

    3、也就是说,推动神经网络发展,不仅仅是技术的发展,网络规模的发展,更是因为有了海量的数据,注意了,这个数据还需要是标签化的数据。

    6、神经网络发展的三要素

    • 数据

    • 计算力

    • 算法

    其中,算法的发展,有一个例子,就是sigmoid到relu,就会使梯度下降运行得更快,因为sigmoid到后面梯度越来越接近0了,如下:

    image.png

    二、神经网络基础(第二周)

    1、神经网络拥有一个前向传播,然后又会有一个后向传播

    2、二分分类符号

    将m张图片,也就是使用 nx * m 代表(nx, m)矩阵,用python表达就是X.shape = (nx, m),nx代表行,m代表列。最终,变成Y矩阵,Y.shape = (1, m),代表1行m列,逻辑符号看下面:

    image.png

    原来,矩阵的符号是下面个:

    image.png

    代表 x 是 nx元素个矩阵,它是一维矩阵。

    image.png

    X代表是(nx, m)矩阵,它是二维矩阵。

    3、怎么使用矩阵代表一张图片

    一张64x64像素的RGB图片,因为它是3个通道,所以可以表示成 64x64x3,最终将其压缩到一列中,如下:

    image.png

    4、一个logistic回归

    image.png

    (1)使用w和b参数学习

    (2)最终使用sigmoid函数转换为0和1

    image.png

    5、损失函数、成本函数

    损失函数:预测的值与真实的值误差

    成本函数:则是求所有的预测值和真实值误差的平均值

    image.png

    6、梯度下降

    image.png image.png

    在梯度下降的时候,我们其实就是在找凸函数的最优解。

    例如,上面的图形中底部那一点。刚开始,我们不管初始化多少,我们都会使用梯度下降,不停逼近那个最优解。

    其中,在求最优解的时候,我们会使用导数更新w和b值,还有一个参数就是α,它代表学习率,它越大,学习的越快,但是最后精度可能不好。而求导的过程,其实就是求曲线的斜率。

    7、直线求导

    对于直线,斜率就是导数,一般导数这两种写法:

    image.png

    为啥说直线斜率就是导数,参考下面:

    image.png

    8、更多复杂的导数例子

    注意:导数都是求函数的斜率,直线的斜率是一样的,但是其它函数,例如loga等,在不同的地方,曲线斜率是不一样的。

    image.png

    9、计算图流程

    image.png

    需要知道的是:

    (1) 前向传播是计算图从左向右计算

    (2)后向传播是计算图从右向左计算导数的计算

    (3)python编程中,da代表损失函数对a求导,dv代表损失函数都v求导

    10、logistic的梯度下降(在1个样本中的推导)

    image.png

    最主要,先求出dw1、dw2、db这些导数,然使用它们更新w1、w2、b,这就是梯度下降,更新公式如下:

    image.png

    其中α是学习率。

    11、多个样本的logistic回归

    其中sigmoid的函数为:

    image.png

    这一波推导比较复杂点,可以自己试着推导一遍。

    12、将代码实现为向量化,可以在python中极大的提升速度,使用Numpy实现

    image.png

    numpy中有很多内置函数,当要计算时,尽量寻找numpy中内置函数,不要显示使用for循环

    13、python中numpy向量编程广播(Broadcasting)基本原则:

    image.png

    还有更多的只是,可以查阅numpy的文档,输入broadcasting查阅。

    14、python使用numpy时,需要注意的地方

    image.png

    不要使用 a = np.random.randn(5)这样方法,使用 a = np.random.randn((5, 1))创建列向量,或者使用

    a = np.random.randn((1, 5))创建横向量。

    如果不确定shape时,使用assert(a.shape = (5, 1))来确认。

    15、sigmoid函数实现

    sigmoid方程如下:

    image.png

    代码实现如下:

    def sigmoid(z):
        """
        Compute the sigmoid of z
        Arguments:
        z -- A scalar or numpy array of any size.
        Return:
        s -- sigmoid(z)
        """
    
        s = 1 / (1 + np.exp(-z))
    
        return s
    

    需要注意,np.exp()是返回e的幂次方

    三、作业实现

    1、通过完成作业,我知道了整个神经网络的构建流程。

    那是如何构建这个神经网络的呢?

    (1)预处理数据。

    读取图片,并将图片处理成向量化;读取文本。并且,将训练的数据和测试的数据放在不同的变量中。

    (2)初始化数据。

    这一步,主要初始化w(权重)和b的值,其中w的维度是与图片相关的,等于宽度x高度x3

    (3)构建模型

    构建模型中,首先是计算出前向传播,然后计算后向传播,计算出梯度,然后进行梯度下降,更新w和b的值。经过多个循环之后,它就会越加接近那个最优解。

    (4)预测方法

    预测方法其实就是拿我们训练好的w和b的值,然后进行前向传播计算出对应的y值,也就是我们的预测值。

    2、在完成作业的时候,我也碰到了问题

    (1)不知道什么时候使用np.dot还是直接A*B

    例如下面公式:

    image.png

    我在计算成本函数的时候,报错了。这个问题,我的解决方法是通过打印这些变量观察得到。

    但是,其实可以看公式就知道,例如A的计算,没有标注是第几个只是大写X和wT相乘,这个明显是矩阵的点积。而J的成本函数计算时,是它们内部每一个y(i)和log(a(i))相乘,其中y(i)代表第i个y值,所以是矩阵的乘法,也就是每个元素相乘。

    总结

    整个知识梳理了一遍,比我以前只知道实现却不知其所以然好多了。所以,我更憧憬后面的课程,争取一个月把它学完。

    相关文章

      网友评论

          本文标题:《deep learning》前两周课程总结

          本文链接:https://www.haomeiwen.com/subject/hbxyectx.html