Motivation

Non-Linear Hypothesis

这一小节主要讲了针对复杂的假设，简单的Linear Regression模型无法很好的拟合，而为了更好的拟合我们可能需要二次多项式甚至三次多项式来进行拟合。这种情况下，feature数量会指数级增长。尤其是本身样本中的feature就比较多时，那么最终多项式中的feature数量会非常非常大，这导致训练模型时的计算量是非常非常大的。

feature increase

Andrew后通过图像识别的例子讲述了，实际在训练此类数据的时候，如果使用之前的logistic regression的形式进行训练，feature的数量是非常非常大的（一个50x50 pixels的feature数量，如果仅是二次多项式，也会达到3million的数量级）。

computer vision

feature num increased dramatically

Neurons and Brain

此小节主要讲述了大脑的一些原理，讲述了一些实际的例子来展示我们的大脑如何处理数据。

Neural Networks

Modal Representation I

此小节主要讲了神经网络的原理，实际是模仿大脑处理信息的原理，以及如何表示神经网络的各个概念。
我们的大脑实际也是通过接收传感器(眼睛，耳朵，皮肤等）产生的生物电信号作为输入，然后经过神经元细胞的层层处理最终产生觉知，进而通过其它连通的神经元产生控制信号，来控制我们的肌肉，从而产生动作或者语言。

neural in the brain

神经元细胞的树突(Dendrite)是输入线路，而轴突(Axon)是输出线路，神经元细胞会根据输入信号进行计算，如果一旦达到阈值(threshold)就会产生输出信号通过轴突传递给下一层神经元进行处理。神经元细胞彼此连接，并通过此种层层处理产生高阶信号。
计算机的神经网络也是通过类似的结构来解析输入信号，经过层层处理而产生高阶信号。
下图是一个单个"神经元"处理单元，该单元有三个输入(如果算上x(0)则是4个输入，x(0)又称为bias unit）

neural model
"神经元"的计算是通过sigmoid activation function来进行计算的(或者叫做logistic activation function)，这块实际跟我们之前的logistic regression差不多，不再多说。
下图是将这些"神经元"连接起来构成了神经网络：

neuralnet.png

这个例子中一共是三层网络，第一层就是layer 1，也是输入层(input layer);第二层是layer 2, 是hidden layer；第三层是layer 3，是输出层(output layer)
下图展示了如何通过输入层的信号x1, x2, x3计算得到layer 2的输出a1，a2， a3，进而再通过layer 3的计算得出最后的输出结果。

notation.png

注意，虽然θ(j)下标为j，但是实际在j+1层计算的时候使用。由于θ实际是表明该输入信号的权重，所以θ也叫weight，也可以叫parameter. 用于从第j层到第j+1层的映射。
θ(j) = S(j+1) x (S(j) + 1). 即j+1层有几个节点就有几行，j层输入节点由于要加上bias unit，所以要+1，也就是表明有多少个输入，也就是一行中有多少个θ参数，所以也就是几列。