美文网首页
纽约出租车费预测——简单线性模型

纽约出租车费预测——简单线性模型

作者: 毛小毛_abdd | 来源:发表于2019-03-06 18:59 被阅读0次

    最近在学习数据分析,所以在数据分析的圣坛Kaggle找了一些新手案例练习,记录以备后续回顾,如果能帮助他人,再好不过。
    (1)问题描述&问题定义
    基于乘客上车地点信息(经度,纬度)和乘客下车地点信息,预测出租车票价;
    简单考虑,出租车的票价与乘坐的里程成线性关系,即里程越大,票价越高,可以考虑使用简单线性模型。
    问题的另一个特点是数据量很大,可以考虑使用其中一部分数据,也可以考虑使用适合大数据量的算法。
    该问题研究的是一个简单的回归问题,基于历史乘坐里程和票价数据,预测当前里程下的票价。
    此类问题模型可用于房价预测,旅游景点人数预测等。

    (2)准备数据
    1)导入原始数据
    由于这里采用简单的线性回归模型,不适宜大数据量的数据,所以这里只使用原始数据集上的一部分数据,取前1000000条数据作为原始的训练数据。

    2) 数据预处理,包括剔除缺失数据和异常数据
    缺失数据值的数据样本不具备参考性,故剔除
    从实际来说,一个城市的大小是有限的,所以上车地点和下车地点之间的距离应该合理。

    (3)训练模型


    1.jpg

    (4)总结
    该问题用简单线性模型,基于训练数据和测试数据,实现了对测试数据的出租车票价预测。
    可以考虑采用非线性模型,增加数据量,特征矩阵的选择,等方面提高预测的精度。

    相关文章

      网友评论

          本文标题:纽约出租车费预测——简单线性模型

          本文链接:https://www.haomeiwen.com/subject/svixpqtx.html