美文网首页
二手车估值模型

二手车估值模型

作者: bidai541 | 来源:发表于2017-09-26 14:21 被阅读930次

二手车交易是一个水及其深的领域,近几年二手车网上交易平台以迅雷不及掩耳之势遍地开花,像瓜子,优信,人人车,淘车,58二手车等,我们在这系统可以通过分析网上的这些二手车的数据得出一些比较有用的信息,对在进行二手车以及可能进行二手车交易的用户有一些用处就更好了。

数据获取

本文数据主要来自网络,通过爬虫抓取品牌、车型、车款、基本信息以及检测报告数据,数据采集部分遇到的问题可以在另外一篇文章中写了【爬虫踩过的那些坑】,最终的数据形式如图所示:


抓取的主要字段包括:车款名称、车型名称、品牌名称、上牌城市、车主报价、新车价、上牌时间、里程数、过户次数、颜色、是否降价、降价金额、服务费、级别、车身结构、排量、燃油标号、排放标准、全景天窗、无钥匙启动、胎压检测、gps、检测报告、驾驶检测、外观内饰检测、事故排查等等。这些字段大致可以分为三个类别:

  • 车型车款品牌信息,其中还包括了该车的新车市场价;
  • 车款配置参数,像排量、排放标准,特别是排放标准,跟城市政策相关,也影响到二手车交易;
  • 车辆检测报告,车况好坏对二手车估值肯定是至关重要的。

原始二手车估值

传统的二手车估值方法:

  • 将新车使用10年报废视为100分,把15%作为不折旧的固定部分为残值,其余85%为浮动折旧值。可分三个阶段:3年-4年-3年来折旧,折旧率分别为11%、10%和9%;
  • 有效寿命30万公里,将其分为5段,每段6万公里,每段价值依序为新车价的5/15、4/15、3/15、2/15、1/15;
  • 查表法,预先生成一张残值率表格,包括品牌、年份、里程等

建模思路

对抓取的二手车数据进行建模分析,通过模型可以得到

数据预处理

  • 特征向量化

分析以上抓取的二手车数据,首先把二手车的这些特征向量化,分为四种: Continuous、Discrete、Date

Continuous: 像里程数、车主报价、新车报价; 可以直接作为特征输入
Discrete : 级别、燃油标号、车型、品牌; 需要做one-hot encodding做下转化
Date : 日期类的最终转化为连续数值,比如上牌时间,eg: 2015-07-01,而数据抓取时间是2017-07-01,将该特征转化为上牌时间到数据抓取时间的月份间隔或者天数间隔,上例最终为24. 除了上牌时间,本文还通过车款名比如“凯翼v3 2016款 1.5L 自动智联II舒适型”,抽取车款年份特征,也作为一个Date类型特征。

模型拟合方式可以有两种,一种是直接拟合二手车的车价,另一种是拟合残值率,比如当前二手车报价20万,新车价30万,残值率为0.666, 本文采用的后者,当我们通过随机森林这样的决策树类模型建模时,后者可以保证针对每个个体不会出现错误值,比如新车价是20万,估值最高是20万,但是前者可能会出现>20万的极端情况。

  • 异常值以及缺失值处理

    缺失值:对不同的特征做不同处理,对于像车型、车款、品牌以及配置参数这些特征,直接虑除了不完整样本,但是对检测报告中的外观内饰、驾驶检测等,则对其补0,本文并没有使用其他高大上的缺失值补齐方法。

    异常值:样本中还存在极少数的异常值,比如上牌时间非常久的车表显里程数却非常小,这些不排除人为调表等作弊行为,因为数量不多,所以没有特殊处理,当然也可以通过箱线图或者四分位做下基本的过滤。通过以上的处理,即可得到针对二手车估值的特征向量。

建模分析

为了更加直观的输出二手车的以上特征对最终残值率的影响,本文采用了GradientBoostingRegressor(GBDT), label=残值率, 训练样本在10万左右,训练、测试样本随机3-7分。 在这采用的least squares,也可以是least absolute deviation,至于二者的区别,可以细细想下。

最终gbdt模型某颗树可视化如下:


最终评估误差: error = 0.069199
输出二手车特征对残值率影响的重要性排序结果:

#特征重要性排序
新车报价    0.126172922208
上牌时间    0.0984023517728
里程数    0.0604470613949
排量    0.0306267475096
外观内饰    0.0258966116289
品牌名_福特    0.00973743536435
品牌名_大众    0.00827047710676

试验中发现,不管学习率设置为多少,对二手车最终残值率影响比较大的因素包括上牌时间、里程数、新车报价、外观内饰检测报告、品牌,跟我们之前认识到的先验知识相差不大,比如车况比较好的残值率高,大众、丰田、本田等合资品牌或者进口车的残值率也会更高。还有一个现象,不同的学习率下特征重要性的权重差别极其大,究其原因,发现在lr较小时模型存在欠学习的现象,学习不充分造成。
最终,通过模型得到了所有品牌的残值率曲线:

品牌残值率曲线:横坐标为年份,纵坐标为残值率

上图可以看出,进口品牌或者合资品牌有更高的保值率,而国产车像比亚迪,虽然近几年发展不错,但在保值率上要低一些,至于电动汽车保值率为什么这么低,那需要问电池去了。
还有一些其他非常有意思的发现,比如一线城市跟三线或者四线城市汽车保有量对比结果:



一线城市显然在中高级、高级车、豪华车的占比要高一些,而三线城市的中低级车以及低级车的占有量则要更多,还有很多类似的非常有意思的结论,在这不再一一列举。

结束

真正的二手车估值肯定不能只用这些数据做个模型就可以的,毕竟有一些的车型的样本数据比较少,模型拟合的残值率偏差比较大,所以针对这个问题,本文还结合了真实的成交数据,将模型方法看做黑箱,将真实的成交数据看做白箱,结合二者给出最终的估值。

欢迎一块交流讨论,文中有错误的地方,还请指正,谢谢~
email: bidai541@foxmail.com

相关文章

网友评论

      本文标题:二手车估值模型

      本文链接:https://www.haomeiwen.com/subject/mmgwsxtx.html