Hadoop生态系统应用状况大调查：互联网篇！

作者: 710240073bc6 | 来源:发表于2018-03-24 19:33 被阅读52次

Hadoop生态系统应用状况大调查：互联网篇！
如何学习分布式系统？一文全Get！
Hadoop2.x 快速上手--day1--初识Hadoop
Hadoop入门进阶
第九届中国Hadoop技术峰会2017 北京站通知
zookeeper day1
基于 Pycharm 配置 Apache HUE 开发环境
大数据入门（Hadoop生态系统）
Hadoop生态系统主要架构图汇总
大数据入门必看：Pig、Hive、Hadoop、Storm诠释

国内外对hadoop生态系统的生存状况争论不休，既然如此，我们不妨摸底调查一番，看看国内一线互联网公司(具备自我搭建大数据平台能力的厂商)的大数据平台是如何搭建的?是否基于Hadoop生态系统?Hadoop的存在感有多少?庞大的Hadoop生态系统中又有哪些组件真正脱颖而出了呢?(本文内容来源于公开资料整理)

　　BAT之阿里巴巴

如果要论数据，恐怕只有以电商起家的阿里巴巴才能拥有如此丰富且庞大的数据。有业务场景也有技术能力，阿里巴巴的大数据实力不容置疑。目前，阿里巴巴对外提供基于阿里云的大数据服务。众多大数据产品中，笔者看到了Elasticsearch的身影。

在数据分析和搜索等方面，阿里提供基于开源Elasticsearch及商业版X-Pack插件。Elasticsearch想必大家都不陌生，是继Hadoop之后非常受欢迎的后起之秀。阿里巴巴的大数据解决方案中会有它的出现一点也不让人惊讶，有了Elasticsearch还有Hadoop的用武之地吗?

　　在阿里巴巴早年的数加平台(整个大数据部分统称为数加)介绍中，阿里云大数据事业部数加平台技术负责人陈廷曾表示，阿里统一的自主可控的大数据平台是在Hadoop的基础上构建的，这套平台支撑了阿里很重要的一些业务，可见Hadoop对于阿里大数据平台的构建起到了至关重要的作用。

　　BAT之腾讯

　　腾讯的数据量虽然也不小，但多来源于社交数据。在离线数据处理的介绍中，我们看到腾讯大数据套件基于Hadoop体系的MapReduce、HIVE、PIG、Spark技术向企业用户提供强大的数据离线批处理能力。

　　除此之外，Hadoop生态体系还包括Yarn、HBase、Sqoop、Ambari、Zookeeper、Flume、Kafka、Storm、Spark Streaming、Elastic Search、Impala、Presto、HAWQ、HUE、Log Search、Solr、Kylin。

　　很多人认为Hadoop生态体系中实力最弱的就是MapReduce，然而目前的腾讯大数据体系中仍然可以看到MapReduce的身影，不知道之后是否会考虑更换。

　　BAT之百度

　　百度的数据与上述两家又不同，百度的数据来源多为搜索数据，依托自身百度引擎。进入百度的大数据产品页面，可以发现百度主打的招牌是“智能”。百度的大数据产品中应用了大规模的机器学习、深度学习等能力。

　　百度的大数据基础套件“鲁班”的基础架构如下，可以很直观地看到，百度大数据基础套件中的Kafka和YARN均来源于Hadoop生态系统。

　　京东：

　　京东的电商业务和物流业务如今也是越做越大，京东大数据部为了解决公司越来越广泛的实时业务需求，推出了一整套技术解决方案——JRDW(JD Realtime Data Warehouse)。

　　根据介绍，整个大数据平台有不少开源组件的加入，京东大数据部门在开源组件的基础上又针对其缺点进行了部分调整，形成了最终框架。在后期的发展中，京东意识到如果要搭建一个稳定可靠的实时任务运行平台很重要，通过对Storm、Hadoop、HBase、Kafka等的研究，京东自主开发了高可用调度平台Magpie。

　　图中可以很直接地看出Hadoop的身影，明显Hadoop对其大数据平台架构的搭建过程起到了启发作用。

　　美团：

　　美团的大数据平台主要支撑了美团的到店餐饮、到店综合、酒店旅游、猫眼电影、外卖配送等业务，中间则是基础数据部，最下层基于美团云。如果将基础数据部放大，基本如下图所示：

　　离线计算部分是基于Hadoop的数据仓库数据应用。具体到组件，基础服务层有HDFS和YARN的参与，计算引擎层有HBase、Kylin、Hive、Spark、Presto等来自Hadoop生态系统的组件参与。

　　根据一年前的统计数据，这套平台有42P+总存储量，每天有15万个MapReduce和Spark任务，现在想必数据量和复杂度已经再一次升高了。

　　网易：

　　网易的一站式大数据管理和应用开发平台——网易猛犸，覆盖了大闺蜜数据存储与计算、应用开发、数据管理与集成等场景。

　　在其公布的大数据架构图中，我们可以看到底层基本完全构建于Hadoop生态系统，数据集成、数据存储、资源管理都和Hadoop生态系统有关。这套系统支持HDFS、Hbase、Kudu等从GB到PB级别的存储方案，支持Hive和MapReduce等批量计算、Spark内存计算、Kylin多维分析等多种计算方案。

　　今日头条：

　　2014年之前，今日头条并没有专门的人负责做数据。随着活跃用户数的迅猛增长，各种各样的需求不断，今日头条意识到几个数据工程师单打独斗根本解决不了问题，于是数据平台团队成立了。

　　该团队将Hadoop、Hive、Spark和Kylin等封装成工具，将工具与分析模式相结合包装成解决方案以提供给业务部门。在数据生成与采集方面，今日头条使用Spark实现类Sqoop的分布式抓取;在数据传输方面，采用Kafka作为数据总线，连接在线和离线系统;在数据计算方面，今日头条使用了Spark SQL和Hive;在Cube类查询引擎，今日头条已经成为Kylin国内最大使用用户之一。

　　滴滴：

　　作为目前最大且最活跃的独角兽企业，滴滴的大数据架构部门十分年轻，成立时间仅一年有余。去年，滴滴宣布向各地交通管理部门开放“滴滴交通信息平台”数据，而滴滴当时的平台日订单量已经超过2000万，流量高峰期每分钟接到的用户需求高达两万次。

　　从图中不难看出，滴滴大数据平台分为多个组成部分，数据加工和数据采集两阶段明显用到了不少Hadoop生态系统的组件，数据加工部分完全依托Hadoop生态系统。

　　知乎

　　截止2017年8月，知乎注册用户数破亿，全站DAU达2600万，月浏览量180亿......知乎大数据架构分为数据采集、数据计算、数据服务和数据产品层。

　　对于很多公司都会出现的MySQL数据实时查询需求，知乎调研了Hive和HBase，但最后选择了将BinLog实时打入Kafka，起一套Spark Streaming程序，将数据写入Kudu，这样做的性能会更高一些。虽然这部分组件来源Hadoop生态系统，但知乎内部架构师曾表示公司正在考虑采用TiDB。

　　新浪

新浪同样掌握着大量社交数据，在之前有关新浪大数据体系架构的介绍中，我们可以了解到新浪的技术架构同样基于Hadoop生态圈，最下面是日志接受传输，然后进入Hadoop层，在这之上是ETL数据的整合，随后是中央数据仓库，数据挖掘、实时统计与计算等操作。

　　近几年，随着新技术的不断发展，新浪的大数据体系也在不断改变，但Hadoop生态体系依旧占据着重要位置。

　　58同城

　　58的大数据体系主要分为数据应用、数据应用平台、数据基础平台三层。在接入层，58使用了Canal/Sqoop解决数据接入问题，另一部分数据使用Flume，其中Sqoop和Flume均来源于Hadoop生态体系;存储层全是熟人：HDFS、HBase、Kafka;调度层是Yarn;计算层全部来自于Hadoop生态体系，比如MR、Hive等。

　　......

　　总结

　　最新调查结果显示，中国每年进口最多的不是石油，而是芯片。国内一线互联网公司的大数据生态体系建设基本被Hadoop包圆，这种存在感快赶上芯片在中国的地位了。庞大的Hadoop生态体系中，MapReduce、HDFS、Kafka和Yarn的出现频度最高。然而，不少言论都认为MapReduce的市场竞争力在逐渐减弱，如今这个应用状况似乎一点失宠的意思都没有啊!

很多问题其实答案很简单，但是背后的思考和逻辑不简单，要做到知其然还要知其所以然。如果想学习大数据开发，挖掘，算法在这里给大家提供一个学习交流的平台，微信729317315

具有1-5工作经验的，面对目前流行的技术不知从何下手，需要突破技术瓶颈的可以加群。

在公司待久了，过得很安逸，但跳槽时面试碰壁。需要在短时间内进修、跳槽拿高薪的可以加群。

如果没有工作经验，但Java基础非常扎实，对java工作机制，常用设计思想，常用java开发框架掌握熟练的可以加群。

Hadoop生态系统应用状况大调查：互联网篇！
国内外对hadoop生态系统的生存状况争论不休，既然如此，我们不妨摸底调查一番，看看国内一线互联网公司(具备自我搭...
如何学习分布式系统？一文全Get！
分布式系统在互联网公司中的应用已经非常普遍，开源软件层出不穷。hadoop生态系统，从hdfs到hbase，从ma...
Hadoop2.x 快速上手--day1--初识Hadoop
本节知识 1、Hadoop概述及生态系统 Hadoop思想启源（产生背景） Hadoop生态系统（包含组件及其各自...
Hadoop入门进阶
看到一篇讲解Hadoop生态系统还比较全的文章，分享给大家~ Hadoop是什么？ Hadoop是一个开发和运行处...
第九届中国Hadoop技术峰会2017 北京站通知
中国Hadoop技术峰会作为国内唯一专注于Hadoop技术与应用分享的行业盛会，见证了中国大数据生态系统的建立、发...
zookeeper day1
1 zk 简介 zk 管理大数据生态系统中各个组件。（Hadoop、Hive、Spark） zk应用场景： zk是...
基于 Pycharm 配置 Apache HUE 开发环境
Apache HUE 是一个可快速开发和调试 Hadoop 生态系统各种应用的 IDE，其底层的 web 框架是 ...
大数据入门（Hadoop生态系统）
Hadoop生态系统为大数据领域提供了开源的分布式存储和分布式计算的平台，这一章我们进行Hadoop生态系统的入门...
Hadoop生态系统主要架构图汇总
Hadoop生态系统主要架构图汇总 [toc] 1 hadoop1.0时期架构 2 hadoop2.0时期架构 3...
大数据入门必看：Pig、Hive、Hadoop、Storm诠释
今天给大家分享一篇关于大数据生态系统入门必看：Pig、Hive、Hadoop、Storm等白话诠释，剖析大数据该如...