美文网首页机器学习和人工智能入门机器学习与数据挖掘
Machine Learning流水帐笔记-第二周:Linear

Machine Learning流水帐笔记-第二周:Linear

作者: L_Zealot | 来源:发表于2017-09-10 04:55 被阅读0次

    没错啦,就是Coursera上吴恩达的课。什么,第一篇笔记为啥从第二周开始?不好意思啦,第一周都在笔记本上呢,还没开简书哈哈哈~

    多变量回归

    第二周V1-V2首先讲了Multiple feature的线性回归梯度下降方法,其实就是多变量函数,大概用到求偏导之类的简单推导即可得到通式,和单变量是一致的。

    V3则是说明多feature的情况下,scaling类似非常重要,feature之间相对一致的scaling可以加快梯度下降的迭代速度。实现这一点只要做些normalization之类的统计处理即可,与气象上的变量标准化的思路是一样的,距平除以数据的range或者标准差。

    V4首先介绍如何检测正在执行的梯度下降是有效的,很简单,把cost function的值在每轮iteration后拿出来看看就可以啦,在一定迭代次数后cost function收敛到某值即可。当然也可以使用automatic convergence test,就是看每轮梯度下降对cost function的减少是否低于某阈值。之后则是介绍如果发现cost function出现了随着迭代次数增加而发散或周期性振荡的情况,则需要调小learning rate(传说中的调参民工干的事情么)。这和气象模式积分不稳定的时候需要调小积分步长类似,有着一致的出发点和处理思路。当然,随之带来的则是计算量的显著提升。Andrew随后给出了实际应用中他所采取的方法,给一个等比数列的alpha,大概按3x增加,然后都来train一遍,最后选个收敛相对快且足够小的alpha即可。

    V5讲了多feature的选择问题,这对建模是非常重要的,也说明背景领域知识的重要性。Andrew举了个具体的例子,比如在有了house长和宽两个指标的情况下,预测房价显然用长宽的乘积,也就是面积,作为新的feature是更合理的。同时,若feature和房价的关系更可能是多项式关系,三次回归显然比二次回归合理,因为二次回归抛物线性质会使得feature大的时候price反而减小,这是不合常识的。当然更合理的假设可能是下面的形式:

    当然形式本身并不反映mechanism,我们的目标是凑出最有效的预测嘛。

    多项式回归依然采用梯度下降处理(体现出梯度下降相比最小二乘的优势了吧),只是要注意scaling非常重要,因为feature的高次幂值域会显著扩大。

    Normal Equation

    好吧刚刚怼了最小二乘这里就介绍了。以一阶线性回归为例,求导,set=0,得到解析解。一般化的,对于theta0-n共n+1个feature,构建design matrix X,转置观测列向量并依观测放入X的每一行即可,即m观测行乘以n特征列矩阵:

    y则是对应label的列向量。

    然后Andrew直接给出了求theta的Normal Equation:

    视频中没有给出推导过程,自己试着推导了一下,对cost function求导并set为0向量。还是需要用到一些矩阵运算的性质(好了,不要吐槽我autodraw的清奇画风):

    用Normal equation的话不需要考虑scaling的问题, which is nice。Andrew对梯度下降和NE的优缺点做了个很好的对比:

    划重点,由于NE的时间复杂度是O(n^3),n如果很大,也就是说feature很多的话,NE会很慢,n~10^6必然要使用GD啦,Andrew建议10^4以上采用GD。另外对于clustering类的问题,NE是无效的,GD无敌。

    V2介绍NE的noninvertibility的问题。如果X'X是不可逆的话,比如是singular或者degenerate矩阵。Andrew没有讲具体数学细节,而是给出实际应用中出现这样情况的可能情形:

    1. redundant features 存在冗余特征。

    2. 观测样本太少,而feature太多。

    Octave/Matlab Tutorial

    来来来,一起复习下matlab语法与交互式操作

    2==4 

    3~=4 注意不是!=

    1 && 0  ; 3 || 3; xor (1,0)=1

    预定义常量 pi

    disp(sprintf('2 decimals: %0.2f', a))

    v=1:0.1:2 % from 1 to 2, step 0.1

    ones(2,3) % 2x3

    zeros(); rand(); randn() % normalized distribution

    生成高斯样本:

    对角矩阵 eye(n)

    size(ones(2,3))

    2  3

    A=[1 2; 3 4; 5 6]

    load('xxx.dat')

    who %返回目前内存中的变量

    whos %列表化变量

    clear A %删除变量

    save hello.mat v; %保存目前的交互中使用的内存变量v

    subset就不记录了。

    append操作

    A=[A, [22,33,44] %列向量append

    [A B] %行拼接(横向)

    [A B] %列拼接(纵向)

    A' % transpose A

    [val, ind] = max(A)

    find(a<3)

    sum(a); prod(a)

    max(A,[],1) %max among each col

    max(A,[],2) %max among each row

    flipud(A) %上下翻转

    pinv(A) %pseudo求逆

    print -dpng 'test.png'

    clf %clear all figures

    imagesc(A) % gridfilling show the matrix

    Vectorization:

    当然要向量化操作啦~ 

    所以update假设的向量化非常简单

    quiz里注意一下,矩阵按位取平方与矩阵平方是不同概念

    A^2 ~= A.^2

    编程大作业就实现梯度下降求线性回归啦。submission system还是很牛的,提供邮箱和coursera的token就可以自动上传评分,没想到我这个audit还可以交作业,不错不错。

    当然additional也要做得啦

    不是总结的总结

    第二周感觉还不算难,基本概念还是够用的,只是线性代数不少忘记了,matlab的函数也不太熟悉,向量化操作还要脑补半天矩阵图景。视频1.25x播放速度基本可以接受,讲程序的时候不需要subtitle,慢慢试着讲课也去掉subtitle吧,其实主要是一些符号的名词不熟悉,比如semicolon 什么的要反应半天。toggl记录的总用时如下:

    五小时17分,基本都是在今天完成的啦。视频+笔记+编程作业,这个时间还算满意,再接再厉。

    相关文章

      网友评论

        本文标题:Machine Learning流水帐笔记-第二周:Linear

        本文链接:https://www.haomeiwen.com/subject/tmhzjxtx.html