大数据技术的四大金刚

作者: 金光闪闪耶 | 来源:发表于2019-08-22 10:12 被阅读2次

    导读:相信很多朋友是冲着标题来的,一是好奇,想具体了解四大金刚有哪些;第二,如果判断作者是否哗众取宠,如果是送作者一顶言不符实的帽子。我想一个国家的技术的强大,正是点点滴滴积累起来的。说实话,这个标题,我背负着很大的压力。本来想删除这篇文章,最后还是留了下来,就在静等各位的暴风雨的来临吧。

    大数据技术产生的原因

    我们不妨思考一个问题:最早应用大数据技术的是哪个行业?

    估计很少人能够想到。答案:搜索引擎。

    为什么搜索引擎是最先利用大数据的公司呢?

    在这里相信有许多想要学习大数据的同学,大家可以+下大数据学习裙:957205962,即可免费领取套系统的大数据学习教程

    因为搜索引擎,为广大客户提供搜索服务,随着数据量的增大,原理利用连接关联的技术响应速度极慢,客户耐心及满意度急剧下降。于是,为了更好的提升响应速度,搜索引擎公司需要将相关的数据存储到自己的公司的集群服务器上。

    为了解决大规模丛集计算与存储海量数据的问题,谷歌开发了MapReduce与HDFS系统。该系统与以往系统的不同在于将计算与存储分开进行管理,从而大大提升了计算与存储的性能,大大缩短了响应时间。

    第一金刚:Hadoop(雅虎的错失良机)

    历史渊源:2002年,Doug Cutting为了开发一款搜索引擎急的焦头烂额,主要是因为无法开发出一款针对与大规模丛集计算、海量数据存储的技术。而正在这时,谷歌似乎心有灵犀似的开放了MapReduce与HDFS技术。像极了唯美的爱情故事。

    于是,Doug Cutting利用谷歌的技术开发了搜索引擎Nucth 与Hadoop(Doug Cutting儿子玩具大象的名字)。也是因为如此,Doug Cutting受到Yahoo(雅虎)首席技术官的邀请,正式进入了Yahoo负责搜索引擎工作。这弯转的好突然。

    不过,由于当时对于大数据的存储、计算缺乏具体应用场景。Yahoo只用了Doug Cutting的搜索引擎技术,放弃了Hadoop。果然,骏马易得,伯乐难求。Yahoo啥眼神啊。

    后来,该技术被托管到美国的公益软件基金组织Apache,成为了一项的技术,得到全世界各地开发者的开发支持。后来,由于其在大数据的运算及存储上占据得天独厚的优势,很快被谷歌、雅虎等大型公司使用。是金子总会发光的。

    Hadoop技术对大数据研究的价值不可预估的,不知后来的雅虎想起这段往事,会是什么心情。

    缺点:采用批量处理技术,每一次的处理分析都需要访问HDFS(硬盘存储系统)导致其无法快速响应实时计算的要求。

    归属:美国非盈利软件基金会Apache(阿帕奇)(One Kill)

    第二金刚:Spark(伯克利大学的贡献)

    历史渊源:Hadoop的问世使得大数据的存储、计算得到突破性的发展。但是,其将数据存储在硬盘上,通过访问硬盘进行的计算的机制,却无法满足企业对系统快速反应的需求。所以,Hadoop的应用更多的偏向于对计算响应时间较为宽松的场景。果然,拥有大象庞然大物的命,也拥有大象反应较慢的病。

    伯克利大学为了解决该方面的问题,成立了AMPLab,着力解决Hadoop无法快速响应计算分析需求的Spark。Spark同样采用MapReduce技术进行解决丛集问题。但是,其将需要计算的需求存储在了内存上。后续,系统再有计算的需求时,系统可以直接在内存上进行计算。从而大大提高了计算的性能。而快速响应计算分析需求的大数据计算也被称为流式处理技术。果然是高等学府,技术真不是吹的。

    缺点:处理能力比不过MapReduce;统计功能与R语言无可比性

    归属:美国非盈利软件基金会Apache(阿帕奇)(Double Kill)

    第三金刚:Storm(推特的锦上添花)

    历史渊源:Twitter在使用大数据技术时,发现针对与社交软件更多的数据存储是无状态的。而Spark的有状态存储与计算很难满足其快速为twitter用户服务的需求。通过市场调研,他们发现Back Type的大数据分析技术Storm更适合自己的使用,后续将其收购进行开发。Spark技术更适合于社交类软件的大数据分析存储应用。总有一款适合自己的灵魂

    缺点:资源分配没有考虑任务拓扑的结构特征;采用集中式的作业级容错机制,一定程度限制了系统的可拓展性。智者千虑,必有一失,不怕不怕啦

    归属:美国非盈利软件基金会Apache(阿帕奇)(Three Kill)

    第四金刚:Kafka(领英的错失良机)

    历史渊源:Apache Kafka最初由LinkedIn开发,并于2011年开园。支持开源的、分布式、高吞吐量的发布订阅消息系统。这样正服务linkedin作为社交产品包含发布者、订阅者、代理的角色特征。做一个堂堂正正的社交人,连技术都显得那么社交

    缺点:该系统在大批量容错、副本保护机制上还存在着巨大缺陷。果然人无完人,金无足赤

    归属:美国非盈利软件基金会Apache(阿帕奇)(Four Kill)

    到此,目前拥有的四种大数据已经讲解完毕。

    通过分析我们发现:

    怎么没有我国公司开发的技术呢?

     

    做社交软件的公司很有潜力!

    Apache软件会能不能低调一点呢?

    点赞、转发、关注、评价的人全部都一帆风顺,好事成双,三阳开泰、四四如意,五福临门,六六大顺,七星高彩,八方来财,九九同心,十全十美,千秋大业,万事如意................(快行动起来吧)

    大数据开发高薪必备全套资源【免费获取】

    Oracle高级技术总监多年精心创作一套完整课程体系【大数据、人工智能开发必看】,全面助力大数据开发零基础+入门+提升+项目=高薪

    相关文章

      网友评论

        本文标题:大数据技术的四大金刚

        本文链接:https://www.haomeiwen.com/subject/jqigsctx.html