参加这个会议室一次机缘和巧合,正好我的同事由于私事不能参加,而我目前正负责百度电商知心项目的数据平台工作,虽然是web工程师出身,但是大会的主题是数据,这勾起了我的欲望,因为数据平台的建设也已经大半年了,遇到不少问题,几乎可以说野路子出身的我,如果再不接收一些大师们的醍醐灌顶,恐怕迟早要摔跤,所以我扛起了我的书包,说走咱就走,风风火火闯帝都了。
第一天
大概可以分成4个主题——数据库技术探索、Hadoop技术实战和应用、数据库性能调优以及陌生的微软大数据战略分享,总的来说大部分都不太符合对应的主题,我为什么要黑呢? 且听我娓娓道来吧。(PS:第一天大部分是吐槽、第二天和第三天干活比较多学得东西不少)
首先关于数据库技术探索的主题,本以为会宏观的介绍目前业界新技术,给大家涨涨姿势,让大家自惭形秽,不要老是吹自己家技术逼格有多高。。。可是我错了,第一个上的是国家队中国移动的大拿,噼里啪啦一顿说自己的数据平台用了哪些技术有多么牛逼,大哥你说的国外都玩烂了,有意思么,我当然没站起来喊出来,我只是默默地在心里呐喊着;第二个嘉宾来自蓝色巨人IBM,一个研究生阶段特别崇拜的一家公司——现在对它的印象则是臃肿、潜力不大,讲的主题是《珠联璧合:大数据联姻数据仓库后》,本来以为这个联姻单纯只是一个比喻,这半个老外居然还真的就把两者当老公和老婆的关系说了,居然总结出这样一个结论——结婚后的家庭情况就像大数据,有各种各样处理不完的事情,需要一个数据仓库来帮忙归类处理,然后就是说IBM在大数据这一块如何牛逼,又是一顿吹,我无语,对IBM的不好印象又是雪上加霜了。第三个嘉宾不是一个人,而是一开始就摆上了三个沙发,这次三个人轮流被美女主持人以提问的方式来分享,具体内容我就不多说了,大概就是说华为和SAP合作很愉快,华为出硬件、SAP出软件打造的内存计算一体机给北交大的教研使用是多么的有效果,结论做广告呢!不过话说这北交大的博士口才还可以,句句旁敲侧击地赞美之词,确实牛逼,这一下给在我心中的博士大大点了一个赞,当然后续一位嘉宾的故事,却又一次把博士黑出了翔!
上午就在一顿广告中度过,稍微有点失望,但是想想人家组织的人也要收点钱过日子,后面应该就是干活了,好得主题是Hadoop技术实战和应用,我看他们应该玩不出新花样吧。下午比较特殊的是上面讲的两个主题分成了两个专场,也就是你只能选择一个主题听,或者你也可以两个专场挑着听,我这次来主要是奔着大数据的,所以果断选择hadoop,而没有去数据库调优的专场。
hadoop专场##
不愧是现在风风火火的hadoop,下午一共5个会议:
- 大云Hadoop平台及应用(移动大拿真能取名字,很给力——大云,莫非是大数据和云计算的合合称?)
- spark运行时模型剖析(--!这么具体,大数据实时计算是火到逆天了么?)
- Hadoop生态技术在阿里搜索的实战应用(阿里的技术还是相当有魅力的)
4.大数据下非结构化数据管理系统的设计及其应用案例
5.爱奇艺在Hadoop生态中大数据平台架构与实践(谁说百度技术不如阿里和企鹅的,我厂下属的视频公司都高大上的好吧,吐槽一下抱歉)
在下不是会议记录者,无法做到把每一个会议都详实的描述一番,真要这么做,估计我可以转行了(哈哈,想当年小学作文拿过满分的,现在真是惭愧--)。言归正传,听我一一总结吧:
大云平台#####
大拿介绍:王宝晗(确实含蓄),中国移动研究院“大云”项目组Hadoop技术专家
电信领域嘛,无论是海量数据批处理、大数据实时查询和分析以及数据挖掘等方面对hadoop都提出了更多要求,所以移动人们就自己捯饬,搞了一个大云。那这货长什么样子呢,先看一下庐山真面目:
大家不要怕哦,会议不到45分钟,所以含蓄同志也没法讲那么多内容,总结一下主要讲的就是以下4个方面,咱们一起来看看:
- 数据存储和计算——hadoop生态技术(这词在这次大会上用烂了,我也引用一把,的确hadoop各个组件完全就是一个生态圈)
我想用ppt中图大家更直观地感受一下:
随便扫一眼玩过大数据的小伙伴们都惊呆了,在我们印象中垄断企业技术都很老,转个头都要闹很大动静的,你瞧瞧就不说YARN、SPARK这种现在刚出来不久的玩意了,看来研究员的同志们的确不是吃干饭的,帮助移动跟上了世界的步伐呢,我觉得一点不夸张,本来我对移动大拿的分享不是很感冒的,一看到这,来劲了,真想点32个赞!这一块相信大家也都了解是干嘛的,真的不懂百度一下单词就哦了,我就不废话了,正所谓知我者谓我心忧,不知我者谓我何求!
- 数据仓库系统
重点介绍了数据仓库系统——HugeTable(比BigTable还要牛逼的节奏哈),里面还真是包罗万象,直接上图:
- 图计算
图计算为什么要单独领出来呢?不也是计算的一种么,人家的图计算平台BSP开源了(传送门),这才是关键,你代码写的搓敢开源么,这是需要信心和魄力才能办到的,关键是人家还不吝啬,秀出来内部处理的结构:
上图画很清晰,描述从输入、任务、产出一系列的流程,计算阶段比较复杂的各worker之间的同步问题如何解决呢?在往下看一看人家如何解决:
个人觉得这些才是今天含蓄同学的干货,其他的一些就不多写了
spark运行时模型剖析######
大拿:连城(这名字不错),Intel物联技术研究院研究员
Spark这货想必搞大数据的童鞋们都耳熟能详了,因为这货的目的是灭了MR(霸气)。这货如果不是用Scala写的话,而是java ,我估摸着MR早已经完败了,正所谓任何事物都不是完美的,用scala也是考虑到种种问题。在迭代型计算中,相较于传统MR程序,功能对等的Spark程序往往可以几分之一的代码量达到一两个数量级的效率提升,这主要得益于RDD的表达能力和Scala语言层面的灵活性,当然对应着的Spark的运行时模型比传统的MR要复杂,若不能深刻理解,很难开发出高效的应用,这也这次主题意义所在 带领大家剖析spark的运行时模型,切实理清自己的每一行代码在何时、何地、以何种方式运行、背后又隐藏着怎样的代价。
为什么说spark实现效率更高?大家看一下同样是实现单词计数的功能,spark语言是如何实现的?
sc.textFile("hdfs://...") .flatMap(_.split(" ")) .map(_ -> 1) .reduceByKey(_ + _) .collectAsMap()
是不是很少,相比mr那复杂的实现,只能说java的代码量太大了!
spark要是展开讲就太多太多了,感兴趣的同学可以去官网(spark传送门)
Hadoop生态技术在阿里搜索的实战应用######
大拿:王峰 花名:莫问,阿里巴巴高级技术专家
阿里还是不错的拿出了不少干货,这次又把自己的搜索系统给贡献出来;主要是介绍在阿里全网商品搜索业务场景下,阐述我们如何利用并扩展Hadoop和HBase,从而搭建一整套海量商品存储系统和实时商品处理系统。
大概分为四块来说
-
阿里搜索离线技术平台
这直接上图最直观,看看技术平台长什么样子吧
-
阿里全网商品搜索系统架构
-
阿里全网商品实时处理流程
HQueue是基于Hbase实现的一个Queue,它主要有以下特性:
•读写高性能(新消息都在MemStore + 顺序存储)
•消息持久化存储,丌丢失(HFile + HLog)
•消息支持TTL设定,自劢清理过期消息(HBase TTL)
•消息支持主劢拉和订阅两种模式(HBase Client Wrapper + Coprocessor)
•服务支持劢态负载均衡(HBase Load Balance)
•服务支持快速Failover (HBase MTTR)
•支持多语言客户端(扩展HBase Thrift Server)
•可不Hadoop计算平台无缝对接(HQueueInputFormat/OutputFormat)
•可复用HBase集群直接部署管理,无需独立硬件(HQueue Shell)
IStream则是阿里搜索分布式计算技术体系中的一员(另外两个分别是批量处理计算模型MapReduce/Spark迭代计算模型),它是主打流计算。然后是这三个货都统一由Hadoop Yarn管理。它的主要特性有:
•计算和存储层分离,可灵活搭配消息队列
•计算拓扑开放,可以根据业务变化劢态调整
•具备流处理进度管理能力,进度可视化以及监控报警
•具备弹性调度能力,可根据进度劢态调整计算资源数量
•服务Metrics自劢记录到OpenTSDB中,可WebUI查看
•类似MR Streaming方式,支持多语言编程
•可不MR等模型共享Hadoop集群,无需单独集群部署
比较遗憾的是大拿没有讲到这些数据是怎么被用来做搜索的,毕竟时间有限吧,分享了一些搜索系统的底层实现也让我们受益匪浅了。
大数据下非结构化数据管理系统的设计及其应用案例######
大拿:李银松 北京拓尔思信息技术工程师
这个就是来宣传自己公司产品的了,主要就是TRS结合20多年非结构化信息智能处理研发经验,吸取Hadoop、MPP、NoSQL、Solr等开源软件的思想,融合检索引擎、多引擎机制、分布式并行计算和多副本机制、对等点机制、新型列数据存储机制、自然语言处理等先进技术的产品介绍,这个就不多说了,因为就是宣传,基本没有干货--#
爱奇艺在Hadoop生态中大数据平台架构和实践######
大拿:孙琦 爱奇艺分布式计算资深工程师
尽管是同一个大老板下面的,那我也得实事求是的说,整个节奏先抑后扬,一开始也是宣传,后面才渐入佳境。我就直接上干货了:
咱们先来看一下爱奇艺是怎么玩Hadoop的。
*数据格式:ProtoBuf、JSON为主,统一数据定义,以便数据共享
*批处理以Hive作业为主
*Storm、Spark实时计算资源托管在Mesos或Openstack虚机之上
*大部分HBase应用是为离线计算服务
*作业提交管理:入口机 + 专用提交系统
*系统监控:传统监控 (Nagios, Zabbix) + Metrics数据聚合
*成本审计:货币化度量项目组开销
Hadoop: HDFS HA也是基于双NameNode节点实现。
使用案例1:基于虚拟化Storm应用:
使用案例2:基于Mesos的云端应用:
PS: Mesos是一个开源集群资源管理和调度系统, 类似的系统有Google的Borg、Omega、腾讯的torca、Hadoop的YARN等, 这类系统的目的是在一个集群上支持多种计算模型, mesos目前支持hadooop, MPI, TorQue, Spark 。
想不到自己总结一下,干货还是不少,后续还需要展开着一一攻克,童鞋们一起加油吧,学海无涯苦作舟,第一天就到此为止了,后面还有两天,分别我关注的主题是Nosql&NewSQL和数据仓库,敬请期待吧。
网友评论