美文网首页
[kaggle]DC比赛进程4

[kaggle]DC比赛进程4

作者: HOHOOO | 来源:发表于2016-11-19 19:53 被阅读86次

本次提交的个人观点:

  1. 对GIS的依赖程度 ,是否要接入postgresql进行GIS方面的计算(之前有一点点研究,并不深入);
  1. 关键的特征应该是trajectories轨迹方面的特征。在初期可以采用类似张洋在翻译中提到的geohash的方法(没找到和R相关的,倒是有个python包,谁帮忙研究下):类似的思想就是将地图切分成大量的小方块(高级一点会切成六边形,小方块的案例有:Uber和神州专车,没找到技术链接将地图切块,进行用车预测,从而动态调价;六边形的好像是高德,做地图上某个六边形区域点击,可以看到半小时、一小时、两小时的到达区域范围)切成块之后进行编码,这样可以将任意一条行程转化成为轨迹覆盖区域编码的序列,或者整个编码区域的稀疏矩阵。再简单点,之间使用起止点的编码作为特征进行预测也是可以接受的。
  2. 在上一步的基础上,可以进行一些OD方面提取特征,baidu出租车OD分析baidu出租车运营平台

一些还未想好是否能合理使用的点:

  • 是否应该将行程切分,区分载客和/空车的行程(需要进行验证),在后期用来训练的数据是根据某个特征(载客/空车)切分的行程,还是整个行程中的每两个点之间的行程都作为训练数据?
    比如说一段行程在经过geohash标号后, A →B→C→C→D→E,到达每个标号的时间知道;
    训练的输入会是其中任意一个子集么,如A →B; A →B→C
  • (这条肯定用)高德的API,企业用户,具体可能会发生关联的如:路径规划API;基于API的相关属性构建特征值;
  • 驾驶员驾驶行为属性(由于数据间隔30s,所以很难学习到驾驶员的驾驶行为倾向)
  • 用户画像方面:驾驶员的生活习惯,貌似也没什么建模必要;
  • H2O的使用;

以下是我的方案:

  1. 在将原始数据计算平均车速度后,验证一些典型的特征验证:
  • 城市不同时段的车流量;
  • 不同日期的车流量变化(节假日/非节假日,需要考察程度在该段时间内会影响OD的重大事件)
  • 每个人的平均速度是否有不同(个人驾驶倾向)
  • 载客与非载客对时间的影响,理论上taxi在乘客上车后,应该直接确定目的地,并且不会在中间因为非交通原因等待。
  • 出驻车的换班时段是否固定,如不固定是否有必要作为特征
  1. 对于轨迹的信息提取,倾向于使用geohash的方法,编码地图上的每一个小块。(能想到的另一种方法是GIS数据库,postgresql的使用),基于编码提取特征,将GIS特征变为数字特征作为输入参数;
    其他的特征还有:
  • 行程起止点GPS距离;
  • 行程的GPS点个数;
  • 行程所处时间段、日期;
  • 行程是否包含了预设的经常拥堵路段;
  • 驾驶员方面的因素;
  • 高德提供的特征:如导航时长
  • 未完待续。。。。。。
  1. 模型,这部分现在谈好像纸上谈兵,但是否使用一些机器学习的平台可以提前考虑下,比如H2O;
  2. 测试,
  3. 提交测试结果,可以查看下被用来预测数据的样式;目前最高分0.22。

尽量能在月底提交一次结果吧,通过与结果的比对,不断迭代更新算法吧。

任务 完成日期 任务分发

相关文章

  • [kaggle]DC比赛进程4

    本次提交的个人观点: 对GIS的依赖程度 ,是否要接入postgresql进行GIS方面的计算(之前有一点点研究,...

  • [kaggle]DC比赛进程

    数据量不算小,压缩包7个GPaste_Image.png 赛题分析: 明天试着把下载好的数据demo放到亚马逊云的...

  • [kaggle]DC比赛进程5

    本周开始试了下高德的路径规划导航,虽然效果很差,但其中有一些借鉴意义,可以作为备选的特征放到后期的model中。例...

  • [kaggle]DC比赛进程2

    周末公司计算系统崩了。也没想好用什么怎么进行数据处理。 周一和经理汇报工作时,得到了支持。适当可以申请,使用生产环...

  • [kaggle]DC比赛进程3-参考资料

    本次比赛可借鉴的比赛有: NYC taxi:因为数据开源NYC Open Data,所以网上有大量的研究。 ECM...

  • Kaggle竞赛 —— 泰坦尼克号(Titanic)

    完整代码见kaggle kernel 或 NbViewer 比赛页面:https://www.kaggle.com...

  • 2023年要精读的三本书

    两位作者拥有十多年的Kaggle比赛经验,都是grand master。现在市面上介绍Kaggle比赛的书非常少,...

  • xgboost

    通俗理解kaggle比赛大杀器xgboost

  • 【Kaggle】用随机森林分类算法解决Biologial Res

    Kaggle搞起来 Kaggle比赛多依靠机器来自动处理,机器学习几乎是必须要的技能。开始搞Kaggle需要的机器...

  • Kaggle比赛心得

    最近参加了两场Kaggle比赛,收获颇多,一直想写篇文章总结一下。接触Kaggle到现在不到一年,比赛成绩一个银牌...

网友评论

      本文标题:[kaggle]DC比赛进程4

      本文链接:https://www.haomeiwen.com/subject/txpspttx.html