美文网首页
房价预测

房价预测

作者: 毛小毛_abdd | 来源:发表于2019-03-17 11:04 被阅读0次

    这周本该有两篇文章,上半周没有完成Kaggle案例,花了一些时间学习了sklearn库。周日了,先早点将下半周的文章发出来,mark一下~
    上周说好这周是汽车行业的案例,奈何目前没有找到相似的案例,所以,依旧来自kaggle案例,关于二手房的预测。


    housesbanner.png

    (1)定义问题
    根据房屋的属性(卧室数量,是否沿街等信息),以及房屋的售价信息,对房屋的价格进行评估。模型可用于二手房,二手车的估价。
    初步判定这是一个有监督学习,可选用线性模型。
    (2)准备数据

    1. 原始数据包含79条房屋属性信息,1条售价信息(SalePrice),1条数据id信息(不具备 参考意义,剔除)
    2. 将79条属性信息作为特征数据,售价信息作为因变量/研究目标。
      3.处理因变量SalePrice,
      观察发现,原始数据中因变量是一个数字量且数值较大,存在多个不同的自变量/相同的自变量,对应一个因变量的情况,需要寻找一种数据标准化的处理方法,这里选择将数据做平滑处理——log1p():
      log1p()函数用于偏度较大的数据进行转化,使其更加符合高斯分布;同时,还可以避免复值问题(一个自变量对应多个因变量)。总之,该操作是将数据压缩到一个区间,可以看作是数据的标准化。
      4.处理特征数据/自变量
      特征数据的类型比较复杂,有数字类型变量,有离散变量,此外,存在缺失值的情况


      [图片上传中...(Image 6.jpg-7b565f-1552791784449-0)]

    (3)建模
    关于模型的选择:
    通过观察训练数据矩阵,稀疏,尝试采用套索回归,结果对比模型可选用脊回归(最小二乘添加惩罚项)


    Image 6.jpg

    (4)优化
    采用xgboost优化


    Image 8.jpg

    5)总结分析


    Image 9.jpg
    Figure_1.png

    通过对数据的清洗,以及模型的选择和优化,我们可以实现对一组新的测试数据的输出。分析过程中确定研究的目标,将目标可视化,关联性处理,有助于分析目标。

    相关文章

      网友评论

          本文标题:房价预测

          本文链接:https://www.haomeiwen.com/subject/xfgymqtx.html