激活函数、线性变换

作者: 三方斜阳 | 来源:发表于2021-03-26 14:44 被阅读0次

8、激活函数
激活函数、线性变换
激活函数
激活函数和损失函数-Question
【百面机器学习】深度神经网络
线性函数非线性化方法的分类
激活函数softmax-P2分类任务
batch normalization
深入理解激活函数
6.神经网络训练细节part1

1. 线性变换概念：

线性映射（ linear mapping）是从一个向量空间 V 到另一个向量空间 W 的映射且保持加法运算和数量乘法运算，而线性变换（linear transformation）是线性空间 V 到其自身的线性映射.

线性空间 V 上的一个变换 A 称为线性变换，对于 V 中任意的元素 α ，β 和数域 P 中任意 k，都有:

加法： A(α+β)=A(α)+A(β)

数量乘法： A (kα)=kA(α)

在数学中，线性映射也叫线性变换，是在两个向量空间之间的函数，它保持向量加法和标量乘法的运算。术语 "线性变换" 特别常用，尤其是对从向量空间到自身的线性映射(自同态).

线性变换数学定义在一般的高等代数学书中都可以找到。A(a+b)=Aa+Ab,Aka=kAa。其中a，b是V中的线性空间。这个定义就是说把空间中的元素（特殊地想为三维空间的向量）经过一个变换，而这种变换是具有线性的特性的。那么这种变换的从一个元素转变到另外一个元素的对应关系，我们可以用前面的一个矩阵来表示，称为线性变换矩阵。

2. 机器学习中的线性和非线性理解：

绝不是！！！：

刚刚有说到，线性变换，是在两个向量空间之间的函数，它保持向量加法和标量乘法的运算，写到一个式子可以是这样：

$F(ax+y) = aF(x) + F(y)$

x，y 为变量，a 为常数，注意：线性定义中的 x，y 不是标量，而是向量，F是向量变换，满足线性定义的向量变换可称为向量的线性变换。

根据线性定义，应有F(2t) = 2F(t)，然而：

F(2t) = 3*2t + 2 = 6t + 2

2F(t) = 2*(3t+2) = 6t + 4

事实上：从向量视角下去理解一次函数 F(t)=3t + 2 (t为标量实数)，t 是只有一个标量作为分量的向量；向量F(2t) 平移即可得到 2F(t)，两个向量是同一个向量的条件：方向相同；长度相等

两者都可以通过向量 6t 平移得到，由于平移不改变向量的方向和长度，故向量F(2t)=2F(t)=6t

非线性函数：则是指不满足线性定义的函数即为非线性函数

3. 激活函数：

神经网络中的每个神经元节点接受上一层神经元的输出值作为本神经元的输入值，并将输入值传递给下一层，输入层神经元节点会将输入属性值直接传递给下一层（隐层或输出层）。在多层神经网络中，上层节点的输出和下层节点的输入之间具有一个函数关系，这个函数称为激活函数（又称激励函数）.

如果不用激活函数（其实相当于激活函数是f(x) = x），在这种情况下你每一层节点的输入都是上层输出的线性函数，很容易验证，无论你神经网络有多少层，输出都是输入的线性组合，与没有隐藏层效果相当，这种情况就是最原始的感知机（Perceptron）了，那么网络的逼近能力就相当有限。正因为上面的原因，我们决定引入非线性函数作为激励函数，这样深层神经网络表达能力就更加强大（不再是输入的线性组合，而是几乎可以逼近任意函数）。

激活函数是用来加入非线性因素的，提高神经网络对模型的表达能力，解决线性模型所不能解决的问题。

举一个二分类的例子：