美文网首页大数据学习大数据玩转大数据
成为大数据开发工程师,别墅靠大海?

成为大数据开发工程师,别墅靠大海?

作者: Alukar | 来源:发表于2018-07-05 21:46 被阅读17次

    俄罗斯世界杯开赛以来,老牌强队频频爆冷,从朋友圈观察来看,天台已经站满了球迷朋友,买球反着买别墅靠大海也成为了众多网友挂在嘴边的金句。

    真球迷会发现,这次的俄罗斯世界杯多了很多充满科技感的新玩意。比如在法国对澳大利亚的比赛中,视频助理裁判VAR就“大放异彩”,有效地避免出现了当年德国对英格兰的“门线惨案”。

    而且,国际足联已允许俄罗斯世界杯的参赛队伍在比赛中获取数据,这意味着大数据对于足球的价值得到了又一重官方肯定。

    “大数据”在足球运动中简直就是上帝视角全开,从对阵球队的分析到战术建议,到球员状态调整等等,它都能发挥作用。

    大数据为什么频频上热搜?

    从移动支付到共享经济,从万物互联到智慧城市,从大数据这一概念被初步接受,到刷屏的年度账单、听歌报告,大数据所创造的价值正在一步一步体现。互联网、金融、电信、医疗、交通、民生,各行业都开始进行大数据应用,大数据的应用场景在未来更是有着无限可能。

    大数据的真正价值就在于应用。

    根据工信部发布的《大数据产业发展规划(2016-2020)》,到2020年,大数据相关产品和服务业务收入突破1万亿元。

    当然,随之产生的隐私问题也应该被重视。

    大数据岗位的薪资是不是虚高?

    良好的发展前景,意味着强大的变现能力和人才需求,相应的,大数据岗位的薪资也会高于一般岗位。简单来说,高薪资是因为能够创造更大的价值。

    以亚马逊为例,它的专利“预测性物流”可以在用户下单前就开始物流工作。亚马逊会根据你之前的浏览记录、搜索记录,甚至是鼠标停留时间,来预判你的购物行为,为你进行商品推荐,仅这一点就是使得它的附加利润增长了10%到30%。它还会提前将这些商品运送到相应的仓库,这样就能大大缩短商品达到时间,让用户更愿意买买买。

    也正是因为这样的实用性,“大数据人才”对有追求的企业来说就是“刚需”。有猎头公司预估,未来5年内,94%的公司都会需要数据科学家。

    数据来自拉勾网

    从上图可以看出,各家为了笼络人才,开出的薪资待遇还是不错的,但是大数据的人才缺口还是真实存在

    据最新发布的《大数据人才报告》显示,目前全国的大数据人才仅46万,未来3-5年内大数据人才的缺口将高达150万。

    根据中国商业联合会数据分析专业委员会统计,未来中国基础性数据分析人才缺口将达到1400万,而在BAT企业招聘的职位里,60%以上都在招大数据人才。

    如何成为大数据人才?

    不论是从个人发展还是行业前景来看,进入大数据领域是个不错的选择。

    中国顶尖白帽团队Keen的创始人王琦说过“大数据时代,数据就是钱”。

    目前的大数据处理主要有两个软件框架,Hadoop 和 Spark。从各家公司的招聘要求来看,想要从事大数据开发,掌握Hadoop或者Spark是不可少的。

    Hadoop三大件包括HDFS、Yarn和MapReduce。大数据量存储用HDFS,Yarn是其自带的一个资源管理框架,而MapReduce是一个分布式计算框架,跑在Yarn上,配合HDFS用来做分布式数据计算。

    Spark相当于MapReduce的改进版,写分布式计算任务时,从代码上看更简洁,而且它支持大家都喜欢的python,上手比较快。

    从目前的技术趋势来看,Spark风头正劲,而Hadoop、Storm的一些组件则在消退。分布式计算框架Hadoop MapReduce,以其稳定性著称。但他是基于磁盘IO的计算框架,在迭代计算和交互式数据挖掘方面性能较差。正是基于MapReduce的痛点,基于内存的计算框架Spark才应运而生。

    Spark作为计算系统圈的“新贵”,如果想要成为大数据工程师,学习Spark可以说是不可少的。

    学习前,需要有一些基础:

    1.了解Linux操作系统,要对一些基本命令混个眼熟,不用死记硬背,之后使用多了自然就会记住。要了解一些JavaSE的内容,可以网上找一些资料,也可以买一些“从入门到精通”的书。

    2.学习攻克Spark,适当了解Hadoop(HDFS、Yarn和MapReduce)。Spark目前已经发展成了一个生态圈,有很多技术,前期需要了解离线处理sparkcore,和实时处理Spark streaming,类似Spark Mlib和Sparkgraphx可以等到后期需要用到的时候再慢慢研究。这里提到要适当了解Hadoop是因为Spark在实际工作中,在加载数据和存储数据的时候,也是会使用到HDFS的,了解Yarn烦人基础知识也是必须的,Cloudera官方推荐使Spark on Yarn的集群模式。

    3.学习Python。Python简单易学,可以开发Spark程序,Spark有Python接口。

    如果大家不知道从哪儿入手学习大数据,可以加大数据群:724693112 一起交流学习 领取大数据免费学习资料哦!~

    相关文章

      网友评论

        本文标题:成为大数据开发工程师,别墅靠大海?

        本文链接:https://www.haomeiwen.com/subject/btsmuftx.html