一、为什么要学习数据分析,为什么加入社群
- 未来是数据驱动的:看到一篇讲大数据文章,利用测量赛马内脏的大小,发现左心室的大小和马的成功非常相关。成功预测赛马成绩。
看到一个视频,讲gdp动态演变的
https://www.bilibili.com/video/av23006791/
突然意识到数据分析的重要性,想要学。 - 为了解决之前的不能坚持的问题,想到了一个解决方案——加入社群,利用社群的力量带动行动。
- 最近在看吴军博士写的《智能时代》,未来已来,怎么抓住历史进程?就要培养数据分析能力!
2、个人背景
- 工作背景:做科技运维方面,以能维护多少台服务器为能力。但是看到一篇文章,知乎网站一共才100多台服务器,支撑了每个月8000万人的访问。而且未来一个公司直接买阿里的云服务,不需要自己养着运维人员。未来只有几家云公司需要运维人员,运维的路越走越窄。所以转型迫在眉睫。
- 专业背景:本科专业信息与计算科学,数学和计算机课程都有学习,但偏理论,实践较少。目前在学MBA,完善商业知识,可以考虑利用数据驱动做一个项目,甚至成立一家持续盈利的公司。
3、学习规划
实际动手能力是关键。 之前学过概率和数理统计,金融方面知识,python编程,但都是零散的知识,不能形成数据分析实战能力,没有市场价值。
在初级课程中,重点学习Excel和sql操作,希望能通过几周的学习,初步入门数据分析。
4、学习目标:
如下是目前想到的数据分析能利用的地方:
-
实用为目标:不是空学技能,要结合具体行业:金融行业,云计算,数据驱动的互联网公司。比如京东,美团数据研究院,
-
Mba论文中用来做数据调查
-
能实际做项目,有时间可以去网站上接项目
-
结合对技术架构的积累,搭建数据分析平台能力,例如网上看到的51信用卡数据分析架构。
-
自媒体增粉:利用数据分析,增长黑客快速增粉
二、爬虫实践
1、学习过程:
边看世界杯决赛,边看网站教学视频。
登陆网站,下载爬虫浏览器。看网站视频1-3课,学会了网页抓取,列表抓取,翻页抓取。基本傻瓜操作,不过第一次爬了这么多数据还是有点小激动。
2、抓取思路:
- 根据换岗不换行的思路,抓金融业的。目前工作和数据分析相关的就是业务量实时展示,偏数据可视化。看到群里的人说目前金融数据分析师主要两个方向:一是风控建模,一是高频量化。金融数据库有个tushare, python可以直接调用。但感觉没什么可以抓的。
- 社群作业分析:我想到看看其他人在爬什么数据:统计学员笔记,金融行业分析什么?
其他抓取思路:
- 区块链行情统计。抓取微博里大部分的人的看法,按看好和看衰统计,反向操作。
- 金融行业对数据分析的要求。好多人都抓取了招聘网站中金融行业对具体要求,分析了薪资待遇等问题。我觉得这个分析没有指导意义。何不换个思路,通过分析找到玩大数据玩的最好的公司,进入学习数据分析。或者数据驱动的独角兽公司,类似airbnb,领英。找到这个公司后重点分析这类公司有什么要求
- 找到提供数据分析兼职工作的网站,是否有这样的网站?目前知道kaggle是数据分析比赛的网站。
- 突然想到一个数据分析应用领域,可以做视频网站数据分析,类似网飞公司分析并根据用户喜好拍电视剧。
所以,我用抓取社群作业练手,我的抓取成果:
3、存在问题:
- 学习目的不明确,没想好抓什么。所以从学习别人的成果入手,明确切入点。
- 只抓到到1个月以内的数据,一个月以后的数据都没抓到,不知什么原因,可能因为某个因素导致爬虫程序中断。
4、爬虫数据初步分析:
- 关键字分析:金融领域都抓了什么数据,利用分词+tagul高频关键字统计
- 用户名角度:有多少人坚持,多少人放弃
- 赞同数:赞同数高的文章哪里写的好
网友评论