美文网首页
2020-03-24

2020-03-24

作者: 酸菜鱼_02a6 | 来源:发表于2020-03-24 21:31 被阅读0次

    本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第一场 —— 零基础入门数据挖掘之二手车交易价格预测大赛。

    赛题以二手车市场为背景,要求选手预测二手汽车的交易价格,这是一个典型的回归问题。

    数据明确后就要看到是个什么问题
    对于要预测的值,连续值做回归,离散值做预测

    哪些算法可以做这个问题(回归/分类)慢慢积累

    回归:线性回归,决策树,SVM
    分类:线性回归,决策树,SVM
    要用的算法(线性回归)要什么样的数据才可以用上

    线性回归: 数值型数据
    数据中是否含有字符串或者缺失值,如何将它们变为数值型

    数据特征工程的思路,数据的EDA(推荐pandas_profiling)、特征选择、特征组合或分割

    EDA:一键生成数据报表
    特征选择:特征参数过多不利于计算,容易过拟合,需要做选择
    特征组合:特征之间有所联系可以组合成一个较综合的特征
    特征分割:类似于One-hot编码

    算法的选择

    1.Xgb(Xgboost)
    2.Lgb(Lightgbm)
    3.ANN(Adaboost)

    原文链接:https://blog.csdn.net/xujiaqi1574587/article/details/99085233

    查看价格的分布

    import matplotlib.pyplot as plt
    import seaborn as sns
    
    
    plt.figure()
    sns.distplot(train_df['price'])
    plt.figure()
    train_df['price'].plot.box()
    plt.show()
    
    

    相关文章

      网友评论

          本文标题:2020-03-24

          本文链接:https://www.haomeiwen.com/subject/agnayhtx.html