机器学习的目的
looking for a function from data
function的集合{}称之为model
由Training data 可测试function 的好坏
然后用新数据测试function,看f有没有举一反三的能力(泛化性能)
机器学习分类
回归(regression)
The output of target function f is "scalar" - 能预测一个值
分类(classification)
二元(多元)分类,输出是否
以上二者被称之监督学习(supervised learning),需要大量的training data
其次有半监督学习(semi-supervised learning),其训练数据部分有答案,部分无答案,但是无答案部分对学习依然有利
接着是迁移学习(Transfer learning) 例如我们的目的是分辨猫狗,然而学习资料含有其他图片
无监督学习(unsupervised learning) 是训练数据没有答案,例如聚类、给图片让机器自己画图
结构化学习(strctured learning)beyond classfication,输出是具有一定结构性的东西,例如输入声音->f->输出文字(结构性),人脸识别
强化学习(Reinforcement learning)给机器训练数据,数据不给正确答案,但是在每次训练后会告诉机器其正确率(分数),在评价中学习,只知道做得好不好,但是不知道哪里做得不好。近年来应用于阿尔法狗而广受关注,机器与机器对抗(下棋)。
回归
随着模型次数上升,越复杂的modle的训练数据loss越小,但是越容易产生过拟合(overfitting),其表现为训练时情况很好,但是做新题时做得很差。
解决overfitting用更多的data,增加数据减缓过拟合。
在不同种类中,可能对其产生影响,因此可以引入虚拟变量,不同种类的宝可梦CP值变化不同,
Regularization(正则化)
由于过拟合是因为参数过大,对噪音过于敏感,因此对参数进行惩罚,参数越大惩罚度()越大,使得函数更平滑。
但是呢,越大,训练时的loss越大(欠拟合),但是Testing时的效果可能变小。
下图表现越大,参数值就会越来越小,变得很没效果。
网友评论