晚上在知乎上把机器学习与数据挖掘相关的回答刷了一遍,有很多之前看到的回答回头再来看时又有了深刻的理解和体会。看了那些高票回答之后,对与机器学习和数据挖掘有了更深刻的体会。
工业界为了提高业务运营效率以及提高利润、或者降低营销成本等目的,而需要从用户的数据中去挖掘隐藏的有价值的信息,这就是数据挖掘要干的事。而干这件事的方法就是机器学习的各种算法,算法都被封装在一个个包里,数据挖掘要做的就是把处理好的特征放到模型里去训练。然后不断的去优化模型,直到得到的结果满足需求为止。数据挖掘可以说是结合具体的业务场景的应用型的机器学习,它更应该偏重于应用。搞科学研究的更可能注重算法本身,对算法本身作一定的优化,研究新的算法,提高机器学习的效率。
说白了就是调包和调参这两个环节,而对于如何更加快速地调参则需要对机器学习算法原理足够了解,以及一定数学基础,高等数学、线性代数、概率论与数理统计。
1. 前期可以调包跑一下数据挖掘的整个流程,感受机器学习的魅力,激发自己的学习兴趣;时间投入30%
2. 对机器学习的算法以及数据挖掘的场景应用做系统性的学习; 时间投入50%
3. 针对Kaggle竞赛中的实际项目数据进行实践情况,逐步补充数理统计数学基础知识。时间投入20%
网友评论