Logistics regression
Logistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。之前在经典之作《数学之美》中也看到了它用于广告预测,也就是根据某广告被用户点击的可能性,把最可能被用户点击的广告摆在用户能看到的地方,然后叫他“你点我啊!”用户点了,你就有钱收了。这就是为什么我们的电脑现在广告泛滥的原因了。万物的发生都可以用可能性或者几率(Odds)来表达。“几率”指的是某事物发生的可能性与不发生的可能性的比值。
分类算法是针对离散数据而言的,如果预测值是连续值,那此类学习任务就是回归。
Logistic regression主要是二分类。通过利用一致的自变量来预测一个离散型因变量的值。 其预测的是一个处于0到1之间概率值,也就是这个样本属于正类的可能性是多少。
1. 假设方程
y=0或1表示负类或正类(二分类问题),x是m维的样本特征向量,σ是sigmoid/logistic函数,θ是回归系数(也就是x对应的权值),目标是拟合θ。
sigmoid fuction:
hypothesis function2. 假设函数的形状(假设函数何时将y预测为0,何时为1.)
决策边界(并非数据集属性 取决于假设函数的参数)线性、非线性
decision boundary3. 如何拟合参数(使用数据集来确定参数取值)
how to choose θcost function(凸函数)
在单弓形函数上使用梯度下降法
逻辑回归的cost function4. 简化代价函数和梯度下降
Cost(h(x),y)=-ylog(h(x))-(1-y)log(1-h(x))
用极大似然法得出找出让J(θ)取得最小值的参数θ
何时停止?
5. 高级优化
高级算法6. 多元分类
优点:计算代价不高,易于理解和实现
缺点:容易欠拟合,分类精度可能不高
适用数据类型:数值型和标称型数据
网友评论