Machine Learning流水帐笔记-第二周：Linear

作者: L_Zealot | 来源:发表于2017-09-10 04:55 被阅读0次

Machine Learning流水帐笔记-第二周：Linear
【机器学习】复习大纲
机器学习模型算法 List
Machine Learning渐进法找到θ的最佳拟合值
回归模型2018-01-25
Linear Regression与Normal Equatio
Machine Learning - Linear Regres
Machine Learning - Linear Algebr
Machine Learning Series--Linear
Machine Learning (1): Linear Reg

没错啦，就是Coursera上吴恩达的课。什么，第一篇笔记为啥从第二周开始？不好意思啦，第一周都在笔记本上呢，还没开简书哈哈哈～

多变量回归

第二周V1-V2首先讲了Multiple feature的线性回归梯度下降方法，其实就是多变量函数，大概用到求偏导之类的简单推导即可得到通式，和单变量是一致的。

V3则是说明多feature的情况下，scaling类似非常重要，feature之间相对一致的scaling可以加快梯度下降的迭代速度。实现这一点只要做些normalization之类的统计处理即可，与气象上的变量标准化的思路是一样的，距平除以数据的range或者标准差。

V4首先介绍如何检测正在执行的梯度下降是有效的，很简单，把cost function的值在每轮iteration后拿出来看看就可以啦，在一定迭代次数后cost function收敛到某值即可。当然也可以使用automatic convergence test，就是看每轮梯度下降对cost function的减少是否低于某阈值。之后则是介绍如果发现cost function出现了随着迭代次数增加而发散或周期性振荡的情况，则需要调小learning rate（传说中的调参民工干的事情么）。这和气象模式积分不稳定的时候需要调小积分步长类似，有着一致的出发点和处理思路。当然，随之带来的则是计算量的显著提升。Andrew随后给出了实际应用中他所采取的方法，给一个等比数列的alpha，大概按3x增加，然后都来train一遍，最后选个收敛相对快且足够小的alpha即可。

V5讲了多feature的选择问题，这对建模是非常重要的，也说明背景领域知识的重要性。Andrew举了个具体的例子，比如在有了house长和宽两个指标的情况下，预测房价显然用长宽的乘积，也就是面积，作为新的feature是更合理的。同时，若feature和房价的关系更可能是多项式关系，三次回归显然比二次回归合理，因为二次回归抛物线性质会使得feature大的时候price反而减小，这是不合常识的。当然更合理的假设可能是下面的形式：

当然形式本身并不反映mechanism，我们的目标是凑出最有效的预测嘛。

多项式回归依然采用梯度下降处理（体现出梯度下降相比最小二乘的优势了吧），只是要注意scaling非常重要，因为feature的高次幂值域会显著扩大。

Normal Equation

好吧刚刚怼了最小二乘这里就介绍了。以一阶线性回归为例，求导，set=0，得到解析解。一般化的，对于theta0-n共n+1个feature，构建design matrix X，转置观测列向量并依观测放入X的每一行即可，即m观测行乘以n特征列矩阵：

y则是对应label的列向量。

然后Andrew直接给出了求theta的Normal Equation:

视频中没有给出推导过程，自己试着推导了一下，对cost function求导并set为0向量。还是需要用到一些矩阵运算的性质（好了，不要吐槽我autodraw的清奇画风）：

用Normal equation的话不需要考虑scaling的问题, which is nice。Andrew对梯度下降和NE的优缺点做了个很好的对比：

划重点，由于NE的时间复杂度是O(n^3)，n如果很大，也就是说feature很多的话，NE会很慢，n~10^6必然要使用GD啦，Andrew建议10^4以上采用GD。另外对于clustering类的问题，NE是无效的，GD无敌。

V2介绍NE的noninvertibility的问题。如果X'X是不可逆的话，比如是singular或者degenerate矩阵。Andrew没有讲具体数学细节，而是给出实际应用中出现这样情况的可能情形：

1. redundant features 存在冗余特征。

2. 观测样本太少，而feature太多。

Octave/Matlab Tutorial

来来来，一起复习下matlab语法与交互式操作

2==4

3~=4 注意不是!=

1 && 0 ; 3 || 3; xor (1,0)=1

预定义常量 pi

disp(sprintf('2 decimals: %0.2f', a))

v=1:0.1:2 % from 1 to 2, step 0.1

ones(2,3) % 2x3

zeros(); rand(); randn() % normalized distribution

生成高斯样本：

对角矩阵 eye(n)

size(ones(2,3))

2 3

A=[1 2; 3 4; 5 6]

load('xxx.dat')

who %返回目前内存中的变量

whos %列表化变量

clear A %删除变量

save hello.mat v; %保存目前的交互中使用的内存变量v

subset就不记录了。

append操作

A=[A, [22,33,44] %列向量append

[A B] %行拼接(横向)

[A B] %列拼接(纵向)

A' % transpose A

[val, ind] = max(A)

find(a<3)

sum(a); prod(a)

max(A,[],1) %max among each col

max(A,[],2) %max among each row

flipud(A) %上下翻转

pinv(A) %pseudo求逆

print -dpng 'test.png'

clf %clear all figures

imagesc(A) % gridfilling show the matrix

Vectorization:

当然要向量化操作啦～

所以update假设的向量化非常简单

quiz里注意一下，矩阵按位取平方与矩阵平方是不同概念

A^2 ~= A.^2

编程大作业就实现梯度下降求线性回归啦。submission system还是很牛的，提供邮箱和coursera的token就可以自动上传评分，没想到我这个audit还可以交作业，不错不错。

当然additional也要做得啦

不是总结的总结

第二周感觉还不算难，基本概念还是够用的，只是线性代数不少忘记了，matlab的函数也不太熟悉，向量化操作还要脑补半天矩阵图景。视频1.25x播放速度基本可以接受，讲程序的时候不需要subtitle，慢慢试着讲课也去掉subtitle吧，其实主要是一些符号的名词不熟悉，比如semicolon 什么的要反应半天。toggl记录的总用时如下：