这两天在看机器学习实战的书籍,发现这是一本笔者最近看的最难的一本书,理论和实践结合的一本机器学习的好书。看完两章节,发现只是明白其中一点知识。结合到python,笔者只是看明白代码的结构的大致的意思,涉及到具体的实现则是无解。
这两晚完成两个章节的学习后,因为代码实现是python,现成的机器学习的库其实使用很方便,最重要麻烦的还是数据准备、特征提取和模型选择 。特征提取方面的知识,笔者看的是一头雾水,涉及到的知识太过于复杂难懂。笔者准备先做点简单的测试,把书先过一遍,然后再进一步琢磨参悟。
下面是机器学习中最简单的线性模型示例,关于幸福指数和人均gdp的线性关系。
代码中机器学习整个过程为4个部分。
1、研究数据,可视化数据之前都是数据选择和处理。
2、选择模型,model = sklearn.linear_model.LinearRegression(),线性回归。
3、训练数据,model.fit(X, y)。
4、应用模型预测,model.predict(X_new)。
还可以计算出线性模型的函数,即幸福指数和人均gdp的线性函数。
也可以十分简单的换成kmeans模型。
因为python的sklearn库,其实机器学习用python十分简单,但是关于数据准备方面确实十分复杂的。需要确保训练数据的合理性、有效性、代表性,剔除低质量数据。
一步步学习、体会、感悟,待阅读完后再来做做总结。
网友评论