机器学习在许多方面都可以看作是数据科学能力延伸的主要手段。机器学习是用数据科学的计算能力和算法能力去弥补统计方法的不足,其最终结果是为那些目前既没有高效的理论支持、又没有高效的计算方法的统计推理与数据探索问题提供解决方法。
“机器学习”这个词现在太流行了,仿佛是一种万能药: 只要对数据做了机器学习, 那么所有问题都可以迎刃而解! 正如你所知,“理想很丰满,现实很骨感”,事实远没那么简单。虽然机器学习方法都很强大,但是如果想有效地使用这些方法,必须先掌握每种方法的优缺点,同时还要掌握一些基本的统计概念,例如偏差(bias)和方差(variance)、过拟合(overfitting)和欠拟合(underfitting),等等。
本章将重点介绍一些机器学习的实用方法,主要使用 Python 的 Scikit-Learn(http://scikitlearn.org)程序包。但本章并没有全面覆盖机器学习的每个领域——那是一个庞然大物,需要的技术远超本书范围。另外,本章也不是 Scikit-Learn 程序包(想了解更多关于 ScikitLearn 程序包的内容,请参见 5.15 节)的说明书。本章的主要目标如下。
• 介绍机器学习的基本术语和概念。
• 介绍 Scikit-Learn 的 API 及用法示例。
• 详细介绍一些最重要的机器学习方法的具体用法和使用场景。
本章的许多内容都源自 Scikit-Learn 教程和我之前在 PyCon、 SciPy、 PyData 和其他学术会议上分享的内容。以下内容都得感谢这么多年以来参会者与合作者的不吝赐教!
最后,如果你需要更深入地了解相关技术,那么可以参考 5.15 节的内容。
网友评论