最近发现许多同学都在说大数据开发工程师这个职位,但却没有几个人能说清楚,甚至说的都是错误的。那么,什么是大数据?当前互联网公司的数据开发到底是什么样子的?
什么不是大数据开发?
· 仅使用数据库(关系型mysql,sqlserver,oracle等 非关系型 mongo redis等),尽管数据量达到千万级别,亿级别不是大数据开发。
· 从业务系统的数据库中查询数据然后产出报表不是大数据工程师。
· 端上(页面,h5,手机native)埋点上报数据记录到数据库中不是大数据开发。
什么是大数据开发
1.大数据工程师需要的技能
到智联上搜了一下大数据开发工程师这个职位,随便点了几个职位,截图如下:

所以说,现在互联网公司所指的大数据开发用到的工具是:hadoop,hive,hbase,spark,kafka等。
2.大数据工程师做的事情
· 精简到一个词语就是:统计
· 精简到两类指标就是:PV和UV
· 精简到一句话就是:统计各种指标的PV和UV
PC互联网时代,各门户网站(比如:新浪,网易,搜狐)关注的是各自网站今天被打开了几次(pv),今天有多少人(uv)访问了网站。更复杂一点的比如:
· 页面上某个按钮或者某个连接有多少人点击了几次
· 某个页面上的热力图(点击地方越多,图上颜色越重)
移动互联网时代,手机应用被用户打开的次数和人数也是大家关注的重点,但是除此之外还多出了许多其他非常重要的数据,由于手机屏幕的限制,信息流成为了移动时代的主流。

各大门户网站非常关注自己的新闻客户端中:在信息流中曝光了多少篇文章,其中有多少篇文章被用户点击了。每篇文章阅读了长时间,因为用户点击的文章越多,使用客户端的时间越长,各公司的广告收入才越高,所以各公司想方设法推荐用户喜欢的内容。
主要难点在于
· 日志量太大(一般大点的互联网公司,一个业务线每天的日志都有几个t,再大些的每天几十t,几百t也不奇怪),需要掌握大数据相关技术例如前面提到的hadoop,hive等。
· 数据的及时性,从离线计算来说,一般每天零点,前一天的日志都接收完毕,开始计算前一天的数据,几点能计算完毕?要看各个公司各自的要求。
· 数据的准确性。(这是重中之重,大数据开发的工作就是统计,统计的数据如果不准....)
· 如果是实时计算,需要掌握实时相关技术。例如:每5分钟网站的在线人数。
· 监控监控监控:监控任务是否失败,数据是否产出,产出的数据是否异常。
· 容灾容灾容灾:如果任务失败如何补救。比如实时任务,由于某种原因13:00到14:00的数据没有,如何把数据补回来。
网友评论