美文网首页
二手车交易价格预测中的特征工程

二手车交易价格预测中的特征工程

作者: 有机会一起种地OT | 来源:发表于2020-04-13 16:22 被阅读0次

赛题数据维度包括

Field Description
SaleID 交易ID,唯一编码
name 汽车交易名称,已脱敏
regDate 汽车注册日期,例如20160101,2016年01月01日
model 车型编码,已脱敏
brand 汽车品牌,已脱敏
bodyType 车身类型:豪华轿车:0,微型车:1,厢型车:2,大巴车:3,敞篷车:4,双门汽车:5,商务车:6,搅拌车:7
fuelType 燃油类型:汽油:0,柴油:1,液化石油气:2,天然气:3,混合动力:4,其他:5,电动:6
gearbox 变速箱:手动:0,自动:1
power 发动机功率:范围 [ 0, 600 ]
kilometer 汽车已行驶公里,单位万km
notRepairedDamage 汽车有尚未修复的损坏:是:0,否:1
regionCode 地区编码,已脱敏
seller 销售方:个体:0,非个体:1
offerType 报价类型:提供:0,请求:1
creatDate 汽车上线时间,即开始售卖时间
price 二手车交易价格(预测目标)
v系列特征 匿名特征,包含v0-14在内15个匿名特征

在EDA过程中,了解到只有power、kilometer、匿名维度属于数值属性。除去对缺失值删除填充、数据规范化之外,这里对根据实际需求构建特征,以及选择特征的过程做以下记录。

对于预测车辆价格而言,就是要找到影响价格的因素。首先可以想到影响全新车辆价格的因素包括品牌、性能、款型、大小等涉及汽车质量的因素。此外,不同时间下经济环境、消费能力、货币价值不同,也会影响车辆价格。

数据中能反映汽车质量性能的数据包括model、brand、bodyType、fuelType、power。这其中品牌 brand 往往因其口碑服务等品牌价值而对价格有非常大的影响。同样车型配置的车辆,高端品牌的价格会高于低端品牌。这种品牌隐含属性可以通过计算训练数据中各 brand 的的平均价格(mean price)来表现。同时,有些品牌可能专注低端或高端产品,而有些品牌则可能覆盖多层次产品,这可以用价格的房产来表现。

所以在可以构造特征“brand_price_mean”,“brand_price_std”来反映品牌的定位情况——这一对价格有较大影响的品牌隐含属性。

时间对价格的影响,实际上也是较的,可以想象1990年与2010年市面上在售车辆的价格一定差距悬殊。这种差距源于市场消费能力,物价水平的影响。所以模型应该考虑车辆 createDate 对价格的影响。

但是,实际上,不同年代汽车售价不同,并不是每款汽车产品的售价不同。几乎不可能哪款车型会连续生产几十年而不变。随着技术进步和设计风格的转变,车企会不断推出新车型,同一车型品牌也会随着时间不断更新换代。旧车型不断被新车型淘汰,而不是不断涨价。所以说,model 车型属性本身就隐含了时间属性。这或许意味着我们就不必将 createDate 作为重要参数进行考虑,因为 createDate 的影响,已经隐含在 model 中了。

而对于二手车来说,车辆的使用时长、使用里程、故障情况,这些反应车辆损耗贬值程度的数据,对价格有决定性影响。所以使用 regDate - createDate 得到使用时长 ,参与模型训练是十分必要的。里程和故障情况由 kilometer 和 notRepairedDamage 直接反应。当然,在实际中,如果能得到零部件的维修记录数据对于预测价格来说就更好了。存在多次维修的部件一定会降低预期价格,而换新的部件则有望提升二手售价。

地区属性由于能反映地区局部市场,也会对价格有所影响。根据地区编码含义,如邮编,截取前几位反映有一定广度的区域即可。

seller、offerType 属性,从常识上理解,一般不会对价格有影响。在EDA过程中,也发现该属性数值上非常几种,故直接删去,不做考虑。而 SaleID、name 属性属于标记数据,对价格无影响,只作为时间标签即可,不参与训练。

相关文章

  • 二手车交易价格预测中的特征工程

    赛题数据维度包括 FieldDescriptionSaleID交易ID,唯一编码name汽车交易名称,已脱敏reg...

  • 特征工程

    机器学习之特征工程 特征工程的作用 从数据中抽取出对预测结果有用的信息 从数据中构建出对结果有用的信息 更好的特征...

  • 无标题文章

    python 机器学习 预测分析核心算法 特征提取和特征工程 确定哪些特征可用于预测也需要尝试。这个过程就是特征提...

  • 构建预测模型的流程

    1.提取或组合预测所需的特征确定哪些特征可用于预测也需要实验尝试。这个过程就是特征提取和特征工程。特征提取就是一个...

  • 二手车价格预测2:特征工程

    该系列是用于记录跟随Datawhale入门数据挖掘的笔记,感谢Datawhale与天池联合发起的赛事——二手车交易...

  • pandas效率探索

    在数据挖掘任务中,特征工程占据相当大的工作量。最近做唯品会购物预测的比赛中,发现生成特征时候,使用list的app...

  • 二手车交易价格预测-EDA

    探索性数据分析(Exploratory Data Analysis)简称EDA,往往是我们了解、挖掘数据的至关重要...

  • DCN

    摘要 特征工程一直是许多预测模型成功的关键。然而这个过程是重要的,而且经常需要手动进行特征工程或遍历搜索。DNN可...

  • 特征提取

    特征工程:是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性,可以直接影...

  • 深度学习中的特征工程-特征筛选

    在深度学习中是否需要特征工程中,阐述了在工业界的深度学习应用中,对特征工程的必要性。 在:高频特征打压 中通过特征...

网友评论

      本文标题:二手车交易价格预测中的特征工程

      本文链接:https://www.haomeiwen.com/subject/hupumhtx.html