美文网首页
[kaggle]DC比赛进程

[kaggle]DC比赛进程

作者: HOHOOO | 来源:发表于2016-11-10 22:57 被阅读170次
  • 数据量不算小,压缩包7个G


    Paste_Image.png
估计今晚看不到了.png

赛题分析:

赛题分析.png
敲黑板的重点:用于学习道路交通状况,以期对<big><big>某时段下某出租车行驶某条线路</big></big>所需的时间做出预测。
数据说明:
数据说明.png
数据总量:14亿条,7G压缩包
数据维度:1.4万辆出租车、08.03-08.30(28天数据)
预处理:清洗掉了其中重复的和异常的记录,并忽略了00:00:00~05:59:59这一时间段的数据。用于比赛的数据被划分为三个部分。
详情:
1.201408xx_train.txt:训练集出租车GPS数据。 从08月03日到23日之间的GPS记录,用于学习交通流的状况,属于“训练集”,包含10亿条记录信息。
2.predPaths_test.txt:用于预测的道路轨迹数据。待预测路线大约3万条,其数据格式与训练集类似,但分钟和秒被统一设置为0。为了避免通过统计“记录之间的时间间隔”来猜测时间,我们在每一条路径中,随机删除了一些点。为了识别方便,我们将每一条路径的数据按时间顺序写入文件,并加入路径id。
3.201408xx_train.txt:用于辅助识别轨迹对应的前一小时的GPS记录数据,数据格式同1)。在单位为小时的时间段上与2)无任何重叠。 附加说明.png 评分标准.png 3SH5LBO9`G$T3U{A21$L_DD.png

明天试着把下载好的数据demo放到亚马逊云的Rstudio里,考虑一下 大家手头能使用到的环境 和 擅长的分析环境,周末列一个初步的计划出来,本周的初步目标是:搭好运算环境、确定人员分工、读懂赛题说明、查阅参考资料。

对了,之前说的是纽约出租车的那个,大家可以到github上自行搜索:


Paste_Image.png

相关文章

  • [kaggle]DC比赛进程

    数据量不算小,压缩包7个GPaste_Image.png 赛题分析: 明天试着把下载好的数据demo放到亚马逊云的...

  • [kaggle]DC比赛进程5

    本周开始试了下高德的路径规划导航,虽然效果很差,但其中有一些借鉴意义,可以作为备选的特征放到后期的model中。例...

  • [kaggle]DC比赛进程4

    本次提交的个人观点: 对GIS的依赖程度 ,是否要接入postgresql进行GIS方面的计算(之前有一点点研究,...

  • [kaggle]DC比赛进程2

    周末公司计算系统崩了。也没想好用什么怎么进行数据处理。 周一和经理汇报工作时,得到了支持。适当可以申请,使用生产环...

  • [kaggle]DC比赛进程3-参考资料

    本次比赛可借鉴的比赛有: NYC taxi:因为数据开源NYC Open Data,所以网上有大量的研究。 ECM...

  • Kaggle竞赛 —— 泰坦尼克号(Titanic)

    完整代码见kaggle kernel 或 NbViewer 比赛页面:https://www.kaggle.com...

  • 2023年要精读的三本书

    两位作者拥有十多年的Kaggle比赛经验,都是grand master。现在市面上介绍Kaggle比赛的书非常少,...

  • xgboost

    通俗理解kaggle比赛大杀器xgboost

  • 【Kaggle】用随机森林分类算法解决Biologial Res

    Kaggle搞起来 Kaggle比赛多依靠机器来自动处理,机器学习几乎是必须要的技能。开始搞Kaggle需要的机器...

  • Kaggle比赛心得

    最近参加了两场Kaggle比赛,收获颇多,一直想写篇文章总结一下。接触Kaggle到现在不到一年,比赛成绩一个银牌...

网友评论

      本文标题:[kaggle]DC比赛进程

      本文链接:https://www.haomeiwen.com/subject/uywxpttx.html