美文网首页
机器学习-1.sklearn总序

机器学习-1.sklearn总序

作者: ddm2014 | 来源:发表于2018-06-22 19:11 被阅读0次

    机器学习是根据不同事物的特征来推导它的分类或者预测它未来的值,
    大类有分类和回归,分类好理解就是把桃花和菊花分开,又分二分类和多分类。回归就是预测房价,股价这种,预测具体的值。
    方法主要分为监督学习、无监督学习和半监督学习。最大区别是训练集(已知事物)是否有对应的类别标签。
    监督学习就是用已知的事物特征(feature)和类别(label)
    ,训练一个模型,用于预测只有特征的事物是哪个类别。
    特征可以理解为导致分类的一些影响因素,比如分类桃花和菊花,可能特征就是颜色,花瓣数量,开花时间等等。
    无监督学习是根据已知的事物特征进行聚类。
    半监督学习是部分有label。

    这是文档给出的导图


    文档导图 树结构

    图自网友的总结

    api


    sklearn-api

    我使用的一般基本流程是:
    1.收集数据,一般爬虫就在这里用,包括特征(label,监督学习),用pandas处理数据得到更多的特征,比如得到一些‘XX率’,得到原始的训练集。
    2.用sklearn.processing对数据预处理,normalize,主要针对的是feature数量级特别不一样的情况,比如有10000和1.1,这种差别比较大的,就会出现特征对结果的"贡献"不一样。(主要是影响梯度下降的计算)
    还有一种预处理是把文字类型数据改成类别类型,
    3.选取多个模型,训练模型,根据结果,得到学习曲线learning-curve,看是高偏差high bias还是高方差variance,调整原始数据,选择加入更多的数据,还是调整参数。
    4.用新数据训练模型,选取效果好的,用 验证曲线cross-validation curve辅助来调参。
    5.用grid网格化搜索参数

    写在最后
    我的数学水平大概在能知道求导,积分的概念,基本就是高中生水平,机器学习的确需要很高的数学基础,但是只是运用的话,就不需要那么高的水平,我觉得了解各个模型的参数影响什么,能够调参就行了。
    机器学习我主要是看了吴恩达的教程和[机器学习实战](https://book.douban.com/subject/24703171/),统计方面看了白话统计
    这三个我觉得算是非常通俗易懂,我是先看的机器学习实战,感觉比较懵,全靠吴恩达的教程,超级友好,推导由浅入深,关键把什么时候用,怎么样用,流程是怎样的都说的很清楚,超级推荐。
    这个文集仅仅用于记录我的学习心得。

    相关文章

      网友评论

          本文标题:机器学习-1.sklearn总序

          本文链接:https://www.haomeiwen.com/subject/yutkyftx.html