2019-02-24

作者: _mora | 来源:发表于2019-02-24 19:59 被阅读0次

    本周主要在做项目Project: Finding Donors for CharityML

    一个完整的数据分析项目包括数据清洗,探索和分析,但是由于主要侧重点在于机器学习sklearn方法的掌握,所以只关注在选择algorithm,还有预测,并且对模型的好坏进行评估方面。这里不会贴出完整的项目代码。课程完结之后会上传到github上。

    1、对于高度倾斜的特征分布,使用对数变换明显减少了异常值引起的值的范围。


    2、标准化数值特征sklearn.preprocessing.MinMaxScaler

    3、将数据集拆分成训练集和测试集from sklearn.model_selection import train_test_split

    4、评估模型性能𝐹𝛽=(1+𝛽2)⋅𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛⋅𝑟𝑒𝑐𝑎𝑙𝑙 / (𝛽2⋅𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛)+𝑟𝑒𝑐𝑎𝑙𝑙

    5、选用最优模型参数from sklearn.model_selection import GridSearchCV

    相关文章

      网友评论

        本文标题:2019-02-24

        本文链接:https://www.haomeiwen.com/subject/zzbbyqtx.html