前段时间看完《机器学习极简入门》,找到点门路,然后阅读有本机器学习的书籍时还是很费解,只能变实践边阅读。前几天在京东看到一本书《机器学习实战》,看目录感觉比较浅显,于是买来看看。此书直接从底层实现来讲解各个算法,每个算法并不是调用sklearn的类库来实现的,而是直接使用python编程来实现简单的算法,在看各个实现算法时确实解决了笔者的一些疑惑,比如归一化后的训练模型怎么在原始的新数据泛化?
但是在阅读时,笔者没有把大量的时间放在底层实现代码上,而是在理解算法逻辑问题上,每个算法到时是基于什么原理,比如朴素贝叶斯是基于概率论,KNN时测量不同特征之间的距离,决策树是获取最大信息增益的方法来划分数据集,逻辑回归是根据现有数据对分类边界线建立回归公式来分类等等。在理解了这些基本原理后,再后面应用时才会选择正确的模型。那么反馈到以前的实现算法中,KNN时测量距离那么就需要归一化,数据优化十分有必要。
这一次阅读弄懂各个算法的概念后,以后还是会直接调用sklearn来实现机器学习,待下次回看时再次看看底层代码怎么实现,或者在以后遇到算法优化时再研究底层实现有助于模型调优。总的来说,这本书对于机器学习的理解更深一步,前期只能模仿不知其意,现在明白算法的逻辑,在遇到问题时应该怎么思考。
机器学习从数据中提取价值但是经过一段时间的学习后发现特征发现和处理数据才是最难的,最耗时的。有句话叫做:特征和数据决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
网友评论