岭回归

作者: 判笔 | 来源:发表于2017-04-10 21:22 被阅读8330次

    <font color=blue> 岭回归

    </font>   岭回归和lasso解决回归中重大疑难问题:排除多重共线性,进行变量的选择

    最小二乘估计

    在给定经典线性回归的假设下,最小二乘估计量是具有最小方差的线性无偏估计量(Gauss-Markov定理)
      
    线性回归模型可以写成:


    写成矩阵形式:

    n个样本,p个变量,X,y已知。对数据中心化、标准化处理后,可以去掉截距项

    经典线性回归假设

    公式推导


    Q(β)表示的是残差平方和RSS

    均方误差准则



    普通最小二乘法带来的问题:
      当自变量存在复共线性时,回归系数估计的方差就很大,估计值就很不稳定。

    岭回归

    思路:在原先β的最小二乘估计中,加入一个小扰动λΙ,使原先无法求广义逆的情况变成可以求其广义逆,使得问题稳定并得以求解。

    小知识:岭回归使用了单位矩阵乘以常数λ,我们观察其中的单位矩阵I,可以看到值1贯穿整个对角线,其余元素全是0.形象的,在0构成的平面上有一条1组成的“岭”,这就是岭回归中“岭”的由来。

    岭回归的极值求解函数为:

    (1)
    其中 称为惩罚函数,它保证了β值不会变得很大。
    对上式子求导,结果为

    数学可以证明表达式(1)和表达式(2)等价


    (2)

    • (2) 中第二行是对第一行的一个约束项,也就是说所有系数β平方和<某个阈值t
    • λ和t是一一对应关系

    岭回归的几何解释

    下面以两变量为例
    没有约束项时系数β1和β2已经经过标准化。残差平方和RSS可以表示为β1和β2的一个二次函数,数学上可以用一个抛物面表示。


    约束项对应着投影为β1和β2平面上的一个圆,即下图中的圆柱

    该圆柱与抛物面的交点对应的β1、β2值,即为满足约束项条件下的能取得的最小的β1和β2.

    从β1β2平面理解,即为抛物面等高线在水平面的投影和圆的交点,如下图所示


    岭回归的性质


    5、当岭参数为0,得到最小二乘解。当岭参数λ趋向更大时,岭回归系数β估计趋向于0。

    从贝叶斯角度来看:


    岭迹图

    岭迹图的横坐标为λ,纵坐标为β(λ)。而β(λ)是一个向量,由β1(λ)、β2(λ)、...等很多分量组成,每一个分量都是λ的函数,将每一个分量分别用一条线。
      当不存在奇异性时,岭迹应是稳定地逐渐趋向于0


    岭迹图作用:

    1)观察λ最佳取值
    2)观察变量是否有多重共线性
      可见,在λ很小时,通常各β系数取值较大;而如果λ=0,则跟普通意义的多元线性回归的最小二乘解完全一样;当λ略有增大,则各β系数取值迅速减小,即从不稳定趋于稳定。
      上图类似喇叭形状的岭迹图,一般都存在多重共线性。
      λ的选择:一般通过观察,选取喇叭口附近的值,此时各β值已趋于稳定,但总的RSS又不是很大。
      选择变量:删除那些β取值一直趋于0的变量。

    岭参数的选择


    1)在岭回归中设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数癿大小。可以剔除掉标准化岭回归系数比较稳定且绝对值很小癿自变量。
    2)随着λ的增加,回归系数不稳定,震动趋于零的自变量也可以剔除。
    3)如果依照上述去掉变量的原则,有若干个回归系数不稳定,究竟去掉几个,去掉哪几个,这幵无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。


    c就是{}中的内容


    岭回归缺陷

    1.主要靠目测选择岭参数
    2.计算岭参数时,各种方法结果差异较大
    所以一般认为,岭迹图只能看多重共线性,却很难做变量筛选。

    岭回归实例练习

    实例一:
      空气污染问题。Mcdonald和Schwing曾研究死亡率与空气污染、气候以及社会经济状况等因素的关系。考虑了15个解释变量,收集了60组样本数据。
      x1—Average annual precipitation in inches 平均年降雨量
      x2—Average January temperature in degrees F 1月份平均气温
      x3—Same for July 7月份平均气温
      x4—Percent of 1960 SMSA population aged 65 or older
      年龄65岁以上的人口占总人口的百分比
      x5—Average household size 每家人口数
      x6—Median school years completed by those over 22
        年龄在22岁以上的人受教育年限的中位数
      x7—Percent of housing units which are sound & with all
        facilities住房符合标准的家庭比例数
      x8—Population per sq. mile in urbanized areas, 1960    
        每平方公里人口数
      x9—Percent non-white population in urbanized areas,
        1960非白种人占总人口的比例
      x10—Percent employed in white collar occupations     
        白领阶层人口比例
      x11—Percent of families with income < $3000
         收入在3000美元以下的家庭比例
      x12—Relative hydrocarbon pollution potential     
        碳氢化合物的相对污染势
      x13— Same for nitric oxides 氮氧化合物的相对污染势
      x14—Same for sulphur dioxide 二氧化硫的相对污染势
      x15—Annual average % relative humidity at 1pm 年平均相对湿度
      y—Total age-adjusted mortality rate per 100,000
       每十万人中的死亡人数



    进行岭迹分析
      把15个回归系数的岭迹画到图7.4中,我们可看到,当k=0.20时岭迹大体上达到稳定。按照岭迹法,应取k=0.2。
      若用方差扩大因子法,因k=0.18时,方差扩大因子接近于1,当k在0.02~0.08时,方差扩大因子小于10,故应建议在此范围选取k。由此也看到不同的方法选取k值是不同的。

    实例二:









    相关文章

      网友评论

        本文标题:岭回归

        本文链接:https://www.haomeiwen.com/subject/gxueattx.html