美文网首页
(005)数据驱动时代已来,如何上车

(005)数据驱动时代已来,如何上车

作者: 今宵说 | 来源:发表于2018-07-16 21:32 被阅读35次

    一、为什么要学习数据分析,为什么加入社群

    • 未来是数据驱动的:看到一篇讲大数据文章,利用测量赛马内脏的大小,发现左心室的大小和马的成功非常相关。成功预测赛马成绩。
      看到一个视频,讲gdp动态演变的
      https://www.bilibili.com/video/av23006791/
      突然意识到数据分析的重要性,想要学。
    • 为了解决之前的不能坚持的问题,想到了一个解决方案——加入社群,利用社群的力量带动行动。
    • 最近在看吴军博士写的《智能时代》,未来已来,怎么抓住历史进程?就要培养数据分析能力!

    2、个人背景

    • 工作背景:做科技运维方面,以能维护多少台服务器为能力。但是看到一篇文章,知乎网站一共才100多台服务器,支撑了每个月8000万人的访问。而且未来一个公司直接买阿里的云服务,不需要自己养着运维人员。未来只有几家云公司需要运维人员,运维的路越走越窄。所以转型迫在眉睫。
    • 专业背景:本科专业信息与计算科学,数学和计算机课程都有学习,但偏理论,实践较少。目前在学MBA,完善商业知识,可以考虑利用数据驱动做一个项目,甚至成立一家持续盈利的公司。

    3、学习规划

    实际动手能力是关键。 之前学过概率和数理统计,金融方面知识,python编程,但都是零散的知识,不能形成数据分析实战能力,没有市场价值。
    在初级课程中,重点学习Excel和sql操作,希望能通过几周的学习,初步入门数据分析。

    4、学习目标:

    如下是目前想到的数据分析能利用的地方:

    • 实用为目标:不是空学技能,要结合具体行业:金融行业,云计算,数据驱动的互联网公司。比如京东,美团数据研究院,

    • Mba论文中用来做数据调查

    • 能实际做项目,有时间可以去网站上接项目

    • 结合对技术架构的积累,搭建数据分析平台能力,例如网上看到的51信用卡数据分析架构。


    • 自媒体增粉:利用数据分析,增长黑客快速增粉

    二、爬虫实践

    1、学习过程:

    边看世界杯决赛,边看网站教学视频。
    登陆网站,下载爬虫浏览器。看网站视频1-3课,学会了网页抓取,列表抓取,翻页抓取。基本傻瓜操作,不过第一次爬了这么多数据还是有点小激动。

    2、抓取思路:

    • 根据换岗不换行的思路,抓金融业的。目前工作和数据分析相关的就是业务量实时展示,偏数据可视化。看到群里的人说目前金融数据分析师主要两个方向:一是风控建模,一是高频量化。金融数据库有个tushare, python可以直接调用。但感觉没什么可以抓的。
    • 社群作业分析:我想到看看其他人在爬什么数据:统计学员笔记,金融行业分析什么?

    其他抓取思路:

    • 区块链行情统计。抓取微博里大部分的人的看法,按看好和看衰统计,反向操作。
    • 金融行业对数据分析的要求。好多人都抓取了招聘网站中金融行业对具体要求,分析了薪资待遇等问题。我觉得这个分析没有指导意义。何不换个思路,通过分析找到玩大数据玩的最好的公司,进入学习数据分析。或者数据驱动的独角兽公司,类似airbnb,领英。找到这个公司后重点分析这类公司有什么要求
    • 找到提供数据分析兼职工作的网站,是否有这样的网站?目前知道kaggle是数据分析比赛的网站。
    • 突然想到一个数据分析应用领域,可以做视频网站数据分析,类似网飞公司分析并根据用户喜好拍电视剧。

    所以,我用抓取社群作业练手,我的抓取成果:


    3、存在问题:

    • 学习目的不明确,没想好抓什么。所以从学习别人的成果入手,明确切入点。
    • 只抓到到1个月以内的数据,一个月以后的数据都没抓到,不知什么原因,可能因为某个因素导致爬虫程序中断。

    4、爬虫数据初步分析:

    • 关键字分析:金融领域都抓了什么数据,利用分词+tagul高频关键字统计
    • 用户名角度:有多少人坚持,多少人放弃
    • 赞同数:赞同数高的文章哪里写的好

    相关文章

      网友评论

          本文标题:(005)数据驱动时代已来,如何上车

          本文链接:https://www.haomeiwen.com/subject/wscmpftx.html