本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第一场 —— 零基础入门数据挖掘之二手车交易价格预测大赛。
赛题以二手车市场为背景,要求选手预测二手汽车的交易价格,这是一个典型的回归问题。
数据明确后就要看到是个什么问题
对于要预测的值,连续值做回归,离散值做预测
哪些算法可以做这个问题(回归/分类)慢慢积累
回归:线性回归,决策树,SVM
分类:线性回归,决策树,SVM
要用的算法(线性回归)要什么样的数据才可以用上
线性回归: 数值型数据
数据中是否含有字符串或者缺失值,如何将它们变为数值型
数据特征工程的思路,数据的EDA(推荐pandas_profiling)、特征选择、特征组合或分割
EDA:一键生成数据报表
特征选择:特征参数过多不利于计算,容易过拟合,需要做选择
特征组合:特征之间有所联系可以组合成一个较综合的特征
特征分割:类似于One-hot编码
算法的选择
1.Xgb(Xgboost)
2.Lgb(Lightgbm)
3.ANN(Adaboost)
原文链接:https://blog.csdn.net/xujiaqi1574587/article/details/99085233
查看价格的分布
import matplotlib.pyplot as plt
import seaborn as sns
plt.figure()
sns.distplot(train_df['price'])
plt.figure()
train_df['price'].plot.box()
plt.show()
网友评论