最近在看机器学习的书籍,先时完成阅读了机器学习极简入门,然后再是机器学习实践,前面的sklearn还能慢慢看懂,在看到神经网络时实在是看不下去了,太难懂了!但是过了一遍,总的来说是有点感觉了。
和硬编程不一样,Machine Learning比较有意思的是实现算法只能无限逼近,在调优过程中可能很烦,但是一旦得到一个更优的解,就让人兴奋了。那么接下来再次学习笔者就准备开始案例学习实践了,这才有助于加深理解,最终的目的也就是解决问题。
现在就有个需求,样本只有正样本,需要输出是否属于正样本,二分类问题。这个问题笔者刚拿到时一点头绪都没有,因为只有一个正样本。在请教了后才知道有几个方法。一是用Kmeans,将数据分成是多个簇,然后使用待预测的样本和这多个簇中心,二者计算距离,使用一个阈值来比较;二是使用one-class之类的分类器(One-Class SVM,one-class network)。总的来说,one-class比较合适。另外一个就是将日志进行分类,提高运维的日志分析,或者使用日志来完成大数据分析,笔者目前目前想到kmeans(无监督)和分类算法,后者需要人工做大量的标签。
在接下来的日志里,笔者准备完成大量的学习,kaggle是个不错的平台。先量后质,最终解决问题,实现智能。
网友评论