美文网首页@IT·互联网程序员
数据分析 | 天池 - 资金流入流出预测 经验总结

数据分析 | 天池 - 资金流入流出预测 经验总结

作者: X的次元人生 | 来源:发表于2017-05-16 20:19 被阅读1128次
图片源自天池官方网站

上一篇:数据分析 | 我怎么选择数据分析比赛网站的

2016年11月左右我刷知乎开始关注了数据分析这一块的内容,而我的工作很快就在2016年12月得知有了一些变化,自身精神状态还算不错也没有因为工作上的一点变化而状态消沉甚至更加努力。从2017年1月开始我就按照知乎上的如何快速成为数据分析师?的方法和书单开始学习,主要看这几本书:《统计学》、《利用Python进行数据分析》、《R语言实战》、《深入浅出数据分析》。纸上得来终觉浅,技术的玩意最终还是要真刀真枪地运用才能检验成果。在《R语言实战》我还没有看完的情况下就参加了天池的比赛,因为我那会觉得所学的大概已经足够应付我所要面对的内容。

选择资金流入流出预测这个比赛是因为自己本身所涉及的行业是银行业,单纯从业务上讲是对自身有好处的。比赛总共提供了4张表:用户信息表、用户申购赎回数据表、收益率表、上海银行间同业拆放利率(Shibor)表,要求通过这四张表的历史数据预测未来三十天整体的申购赎回量。从结果上来看,我们可以单纯只用一张表即用户申购赎回数据表就能预测结果了,但是为什么还要提供这些额外的信息呢?让我们抛开预测目标结果,只从提供的数据看就可以联想到很多可以好奇的内容:什么样的人(男女、城市、星座等比例)买入余额宝?申购赎回量的大小分析,申购赎回的趋势变化、上海银行间同业拆放利率(Shibor)表是什么含义、有什么作用?这些问题都可以为你做接下来的分析进行判断和微调。

电脑配置

操作系统:Windows 10 64位

处理器:Inter i7

内存:8g

硬盘:固态硬盘500G

比赛提供了从20130701到20140831的数据,数据量最大的是用户申购赎回数据表,总共有2840421条数据。由于学习了Python和R语言,因此最开始我都有尝试读取数据,结果Windows下的Python面对用户申购赎回数据表的数据直接Memory Error,只能放弃Python。Linux环境下应该不会有问题,看到很多人还是用了Python去实现,我没有尝试使用,各位可以考虑。而R Studio界面之简洁友好、读取数据又快又好、没有半点问题,最终是采取R语言来实现的。通过前期的学习只了解到了回归的处理方法而不知道更多的算法名称,我曾尝试使用回归算法去处理问题,但是其结果我并没有提交到平台上并不知道成绩到底如何。阿里的开发者论坛有很多人的经验分享,我在那边又获得了许多思考同时也了解到了一些分析方法的名称:时间序列分析、聚类分析、分类分析、关联分析等等。从题目上看和自身的经验上看,由于周末的特殊性自然会舍不得在周末的时候从中提取现金而影响那一点羊毛的,带有时间性,因此选择了时间序列分析。实际上,论坛上很多人分享的也是采用这个方法解决。在进行数据分析之前还有这样几个步骤:数据清理(消除噪音和删除不一致数据)、数据集成(多种数据源可以组合在一起)、数据选择(提取与分析任务相关的数据)。我直奔着结果而去,整合了用户申购赎回数据表的数据得到了所有每天的总购买量和总申购量,通过散点图观察了总购买量和总申购量的变化数据。

日期~总申购量 日期~总赎回量

从上面两个图可以发现2014年之前不管是总申购量还是总赎回量都比较少,但都在稳步上升。除了2014年初期总申购量有一个爆发,总申购量和总赎回量都比2013年有大幅度的增长而且维持的都比较平稳。仅仅从这两幅图就可以提出两个问题:1.为什么总申购量在2014年初会有一个爆发?2.2014年总申购量和总赎回量大幅度增长且平稳的原因是什么?关于第一个问题自然而然会想到收益率,收益率高购买的人自然也会多了。

日期~万份收益

这幅图也暴露了一个问题:2013年的那段时间收益率其实一点也不低,为什么总申购量和总赎回量都没有2014年的高呢?这个问题和上面的第二个问题其实是一样的,若对余额宝初期还有一点印象的话便会记得某一年的春节余额宝收益率高到让很多人把钱存入。查查新闻你就了解到余额宝是在2013年6月份推出的,2013年是属于余额宝的发展阶段,2014年春节高额收益率收获很多资金,当收益率下降了人们形成了撸羊毛的思想而且怎样都比存银行高,流动就比较稳定了。综合下来,我选择只使用了2014年4月开始的数据作为历史数据进行推断。前期的这些工作其实都不用花很多时间,我花的最多时间便是理解ARIMA(p,d,q)算法上。至今也没有搞得很懂,反正就按着自己的理解用了呗~至少看我决定的p,d,q三个数值得到的AIC值并不算很小,但是AIC到底在哪个范围里算小没有定论,唯一可以确定的是越小是越好的,剩下的只有将得到的数据上传之后得到排名之后才能评价了。

就这样,我提交了自己的数据得到于我而言意外的理想成绩。(第43位)

我的天池成绩排行

这篇经验总结其实并没有什么特别干货的内容存在,我相信我文中的思考思路大多数人都能想到,还有很多可以细细揣摩优化的,而我只是想要总结自己唯一一点比赛经验和仅有的成绩带给自己的成就感。

相关文章

网友评论

    本文标题:数据分析 | 天池 - 资金流入流出预测 经验总结

    本文链接:https://www.haomeiwen.com/subject/uytytxtx.html