大家好,好久不见啦。我是李大仁。
近一年都在忙着PM skill社区运营工作, 每天要看很多优秀产品作者的文章,受益匪浅。
《产品经理的技术修养》一书断更许久,这是续更的第一篇,首发于公众号、同步于PM skill社区。
Jack
8.1 大数据和Hadoop家族
小奈:表哥,你知道么。昨天我同事更新简历,然后就被hr约谈了。据说是有一种大数据简历监控服务,可以监控到公司员工简历更新动态。
李大仁:没错的,是有这样一家公司,不过这家大数据简历公司,已经被警方端了,所有员工都被带走。随后,有部分员工被陆续放出。
该公司疑似在没有获得授权下抓取用户简历。
之前创新工厂还投资过。号称有上亿简历。
****小奈****:大数据好可怕啊,我还能更新简历么?
李大仁:大数据并不可怕,而且大数据也不仅仅是你理解的那样。
小奈:大数据究竟是什么?我想系统的了解下。
李大仁讲故事模式:
之前也给你讲过,在浏览器输入url后的故事了。我们来回顾一下。
当你在浏览器输入url之后,网页像商品一样,从远方服务器通过网络管道传输回来,显示在浏览器上。
这个便是早期的web网页应用。这里我们将web应用比喻为商品,用户则是村里购物的小李。早期的架构就像是小作坊生产商品,再通过公路运输。
后来随着村里经济发展,大量像小李网络购物的村民。商家小作坊模式已经适应不了。有一家叫谷歌的商家,提出了工厂联合生产-统一装配高速公路运输的模式(Map切割工作-reduce合并结果)。
商品分为好几个部分,每个工厂就可以并行生产(分布式集群并行计算),然后统一装配运输。这种联合模式工厂(Hadoop)大大提升了商品的生产效率。
这就是大数据,简单来说就是一种“分而治之”的哲学。
我是联合模式工厂,我叫Hadoop:
作为一个大数据工厂的基础设施,我分为两部分。HDFS(Hadoop Distributed FileSystem )分布式文件系统,这个是机身。另一部分是MapReduce(分布式计算模型),这个是引擎。
HDFS是HBase(高可用、大型机身),作为大数据工厂设施机身的开山鼻祖,在数据文件存储这块意义非凡。
Map-Reduce引擎的原理如下,通过切分计算工作,最后再聚合计算结果。
我是Hadoop,各个村子都用上我了,村里都拥有了大数据的能力和财富。那么多人用我,自然而然,我的家族也庞大起来,形成一个生态。
HBase:是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,是为有数十亿行和数百万列的超大表设计的,这是一种分布式数据库,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
Apache Zookeeper: 是一个为分布式应用所设计的分布的、开源的协调服务,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度,提供高性能的分布式服务。
查看小程序或原文,与我一起深入了解hadoop家族
【产品经理大咖秀】2019年第4期:深访顺丰云计算产品经理
【产品经理大咖秀】2019年第1期:数据产品经理的价值
网友评论