大数据运作原理是什么?

作者: bd8941f5f5cc | 来源:发表于2019-04-19 14:00 被阅读5次

    近几年A(人工智能)B(大数据)C(云计算)发展火热,由于笔者在一二线互联网行业从事过大数据相关工作,因此决定在大数据领域对自己的所见所闻,来对该行业之外的人士所做一个讲述,以及对想进入刚行业的从业人员做个简单的讲述和分享。

    大数据首先重要的就是数据,数据从哪里来,到哪里去,这个是我们需要探讨的。首先确定你数据量TB级别、PB级别 or EB级别。上图讲述了数据的来源从用户的数据、购买数据,以及最终的去处:存储、分析。因此可以看出大数据的核心其实是数据。

    以笔者所在的电商平台为例(其他行业同样如此),用户在商城上购买商品,是基于在线交易系统的,称作为OLTP(联机事务)。而由于商城上每天都会产生这些信息,我们就需要把这些交易数据抽取到大数据这边,即:数据仓库。

    数据仓库是用来存储所有的数据,包括用户的所有信息,购买记录、用户基本信息等等。然后对数据仓库中的数据做处理,构建数据集市,再对数据进行分析。根据商城上推出的活动,进行分析该活动是否有利于用户增长等等,最终用来反馈商城相应的调整活动信息。称之为OATP(联机分析)。

    上图主要讲述了大数据的信息。通过上图我们可以将大数据大致划分为如下岗位:数据开发,数据平台开发,数据分析、算法应用。如果所处的公司再大一些,上面相对应的岗位则能够进行更加详细的划分,比如是离线还是实时,对应的可以分到每一个岗位下面。

    下面来讲述一下,每个岗位所需要的技能,以及大家可以根据自己的需求进行调整。

    大数据平台运维:大数据平台的搭建和维护。对应技能:运维的一些技能,以及hadoop,hive等等。

    数据开发:主要涉及到数据的抽取、转换、清洗,即:ETL。对应的技能:sql,hive,hadoop,shell,python(其他编程语言也行)、数据仓库的理论;其中数据仓库的理论尤为重要,需要大量的实践和学习才能建设良好的数据仓库模型,否则数据一团乱麻,很难找到自己想要的数据,也会出现这样的情况:天天疲于奔命,根据不同的需求,进行跑数据的操作。当然你如果想再接触的更深入一些,可以了解一下离线数据和实时数据开发(离线数据仓库、准实时数据仓库)。

    数据平台开发:主要设计大数据平台的开发,为了数据开发的方便便捷自动化而存在的。对应的技能:java,scala,sql,大数据的一些开发平台(MR,Spark,Hbase等等)。

    数据分析:主要是对大数据进行跑数据,做报表。对应技能:sql,excel,tableau,python,R等。数据分析岗位,我认识的很多女生从事该岗位,因为该岗位对于要求或许稍微低一些或者说入门简单一些。但是要想做好也不容易,如果做到自动化数据报表也是大家可以考虑的。

    算法:主要是对算法模型进行应用,开发。对应的技能:算法基础,sql,python、数学理论。当然现在很多的开发工具包以及平台都提供很多算法,包括python,spark,因此需要我们掌握算法原理的情况和场景的情况下进行调用。

    对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:522189307,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。从java和linux入手,其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相关知识一一分享!

    以上主要讲述了大数据的常见岗位和对每个岗位所需要技能进行了分析。如果大家有志于在此行业进行发展,欢迎大家和我交流。

    相关文章

      网友评论

        本文标题:大数据运作原理是什么?

        本文链接:https://www.haomeiwen.com/subject/clpqgqtx.html