美文网首页
机器学习-1.sklearn总序

机器学习-1.sklearn总序

作者: ddm2014 | 来源:发表于2018-06-22 19:11 被阅读0次

机器学习是根据不同事物的特征来推导它的分类或者预测它未来的值,
大类有分类和回归,分类好理解就是把桃花和菊花分开,又分二分类和多分类。回归就是预测房价,股价这种,预测具体的值。
方法主要分为监督学习、无监督学习和半监督学习。最大区别是训练集(已知事物)是否有对应的类别标签。
监督学习就是用已知的事物特征(feature)和类别(label)
,训练一个模型,用于预测只有特征的事物是哪个类别。
特征可以理解为导致分类的一些影响因素,比如分类桃花和菊花,可能特征就是颜色,花瓣数量,开花时间等等。
无监督学习是根据已知的事物特征进行聚类。
半监督学习是部分有label。

这是文档给出的导图


文档导图 树结构

图自网友的总结

api


sklearn-api

我使用的一般基本流程是:
1.收集数据,一般爬虫就在这里用,包括特征(label,监督学习),用pandas处理数据得到更多的特征,比如得到一些‘XX率’,得到原始的训练集。
2.用sklearn.processing对数据预处理,normalize,主要针对的是feature数量级特别不一样的情况,比如有10000和1.1,这种差别比较大的,就会出现特征对结果的"贡献"不一样。(主要是影响梯度下降的计算)
还有一种预处理是把文字类型数据改成类别类型,
3.选取多个模型,训练模型,根据结果,得到学习曲线learning-curve,看是高偏差high bias还是高方差variance,调整原始数据,选择加入更多的数据,还是调整参数。
4.用新数据训练模型,选取效果好的,用 验证曲线cross-validation curve辅助来调参。
5.用grid网格化搜索参数

写在最后
我的数学水平大概在能知道求导,积分的概念,基本就是高中生水平,机器学习的确需要很高的数学基础,但是只是运用的话,就不需要那么高的水平,我觉得了解各个模型的参数影响什么,能够调参就行了。
机器学习我主要是看了吴恩达的教程和[机器学习实战](https://book.douban.com/subject/24703171/),统计方面看了白话统计
这三个我觉得算是非常通俗易懂,我是先看的机器学习实战,感觉比较懵,全靠吴恩达的教程,超级友好,推导由浅入深,关键把什么时候用,怎么样用,流程是怎样的都说的很清楚,超级推荐。
这个文集仅仅用于记录我的学习心得。

相关文章

  • 机器学习-1.sklearn总序

    机器学习是根据不同事物的特征来推导它的分类或者预测它未来的值,大类有分类和回归,分类好理解就是把桃花和菊花分开,又...

  • 学习资料集合

    一、开源项目 1.Sklearn 与 TensorFlow 机器学习实用指南 2.NPL开源项目 3.机器学习笔记

  • Python之Sklearn使用教程

    1.Sklearn简介 Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方...

  • 0116:tf整体认识

    推荐序的内容看了有些启发,因此整体一下: 写在前面: TensorFlow 2 降低机器学习门槛,促进机器学习无处...

  • 总序

    我之所以决定写这么一些东西,并不仅仅是为了某一刻突然的兴趣,也不是为了刻意去描写某一人,某一事。 归根究底,单纯是...

  • 总序

    近来看了《假如给我三天光明》颇有感触,于是遂有私心写一本自己眼睛所见与所想的书,每篇字数不限。然后于是有了以下的物...

  • 总序

    最近,连续看了很多很多电影,音乐会,舞蹈剧反正好多表演。总结一下把,不然真的,有些东西我觉得没有记录可能就真不好说...

  • 总序

    认识我的人都知道,我非常热爱体育运动,专门开了一个文集来写对我影响最大的运动——跑步。而这个文集比较杂乱,记录的...

  • 序(总)

    文|桃源敏(袁敏) 此书可以帮助您彻底的摆脱人生的困惑迷茫、内心的浮躁不安、身心的疲倦懈怠、效率的低迷原始。这是一...

  • 总序

    本文属于个人存档性质。 开始学习C.S.了,于是乎就要配置一个Ubuntu的虚拟机。至于为什么一定要配个Linux...

网友评论

      本文标题:机器学习-1.sklearn总序

      本文链接:https://www.haomeiwen.com/subject/yutkyftx.html