Logistic Regression

Logistic Regression
logistic regression是classification中的一种，主要的细节在于，classifier第二步求的是max likelihood function，但是logistic regression通过一个变换

-ln(likelihood)

使得本身求max L变为求min

-ln(likelihood)

，这样就和regression中的求min loss function类似啦，可以使用gradient descent。
这里有一点不同：

在 $-ln(likelihood)$ 化简后，得到一个类似regression中的loss function的式子，同样是求最小值，但是在前面第二课学的regression中，loss function 其实是一个square error（方差），这里的loss function是cross entropy，二者还是有区别的。
为什么logistic regression 不使用square error呢？有兴趣的可以看看这个视频，讲的很仔细，从24:30开始看粗略的讲一下，就是gradient descent过程中，cross entropy函数很陡，离最低点越远的地方，偏微分也很大，update移动速度很快，离目标很近时，偏微分很小，这是update移动速度变慢，这是正常的。但是square error 的图像在离最低点很远的地方也出现了很平缓的现象，这导致偏微分很小，update移动速度非常非常慢，而且，你无法保证当前微分很小的地方是离目标很近的地方还是离目标很远的地方，所以只能慢慢等结果。。。程序跑的奇慢无比 = =