形式:
f(x)=w1x1+w2x2+...wdxd+b
w直观表示各种x的重要性,因此有很好的的解释性。
应用:
回归任务
分类任务:二分类和多分类
在回归任务中:线性回归。重点是解出w和b,方法是均方误差。
均方误差对应于欧氏距离,计算点到直线的欧氏距离之和,最小的为最好性能。解的过程称为线性回归模型的最小二乘参数估计。
但是有经过均方误差分析之后得到多个w,选择哪个解作为最终解由归纳偏好决定,常见的是引入正则化。
如果令y为非线性,形式上是线性回归,得到的是广义的线性模型。
在分类任务中:二分类任务:之前的回归任务因为y是连续值,直接用就行,但分类任务中y是离散值,如何将连续值转变为离散值就是将回归变分类的关键。在二分类中,需要将y转换为0/1,使用单位阶跃函数是最好的。但单位阶跃函数不连续,不能直接作用在广义的线性模型中,需要使用近似单位阶跃函数的替代函数:对数几率函数。使用过后,其对应模型称为对数几率回归,虽然叫回归,但却是分类算法。对此,我们用极大似然法估计w和b
多分类任务:多数情况下,我们用二分类学习器来解决多分类任务。
核心是拆解和组合,即,如何将多分类任务拆解为二分类,又如何将结果合并。
有三种经典的拆解策略:一对一 一对其余 多对多
一对一:每次取一个做正例,一个做反例,因此产生N(N-1)/2个分类任务。
一对其余:一个做正例,其余做反例,因此需要训练N个分类器
多对多:每次取若干个做正例,若干个做反例
类别不平衡
之前的都有一个共同假设:正例反例数目相当。如果其比例相差悬殊,这样的学习器没有价值
但经常遇到的就是类别不平衡,即正反例的数目差别比较大,因此需了解处理方法:
基本方法:
再缩放(欠采样,过采样,阈值移动)
欠采样:去掉一些反例
过采样:增加一些正例
阈值移动:用原始训练集训练,但将正反例比例加入决策中。
网友评论