美文网首页大数据,机器学习,人工智能大数据大数据 爬虫Python AI Sql
选型宝访谈 | 如何基于Hadoop打造大数据分析及机器学习的平

选型宝访谈 | 如何基于Hadoop打造大数据分析及机器学习的平

作者: f81f49b26d88 | 来源:发表于2019-07-25 14:35 被阅读0次

前言

在Hadoop生态里, Cloudera 是一家代表性公司。

这家 以 Hadoop 发明人 Doug Cutting 为首席架构师的公司,首家将Hadoop投入商用,目前全球最大10家银行中,有7家选择Cloudera的商业化版本。全球最大的10大电信公司中,有9家选择Cloudera的商业化版本。

商业上的成功,让Cloudera 在Hadoop生态里备受关注。

对于企业来说,如何基于Hadoop 打造企业大数据分析及机器学习平台?在选型中,应该关注哪些问题,为此,选型宝特邀Cloudera大中华区售前技术总监刘隶放先生进行了专业解读......

 大数据业务应用场景和用户需求

主持人:说到数据分析应用,数据仓库是以往常用的方法,如今Cloudera提出要从传统数据仓库转移到这个Hadoop大数据平台上来,请问原因是什么?

刘隶放:这个问题如果您在3~4年前问我,我给的答案会不一样。我从业至今18年了,从开始的关系型数据库做起,到现在的Hadoop平台,有一些经验可以分享给大家。

用Hadoop技术取代数据仓库,以前大家的理解都是从成本方面的考虑。传统的数据仓库,特别是数仓一体机,成本相对较为昂贵。如今,借助x86体系架构进行大数据分析,成本优势非常的明显。这就是我一开始的理解。

如今,重新思考这个问题,角度上有了很大变化,今天的Hadoop大数据平台不仅是提供了一个可扩展性的分析平台,更重要的是更多算法的涌现,类似机器学习、AI相关算法,它们更多落地在大数据平台之上。因此,Hadoop可以实现一个更加现代化的企业分析平台。

Hadoop大数据是对数据仓库方法的优化,其中主要有三方面的工作。

第一是ETL( Extract-Transform-Load,数据抽取-转换-加载)改造。以前的做法是把数据加载到数据仓库,再对数据进行抽取转换和加载(又称ELT),服务于最后的分析、报表需求。由于机器的计算能力、带宽都要留给ELT作业,如此其成本就会很高。相比,Hadoop用户的数仓优化第一选择就是把ETL这部分作业挪到数据仓库之外来解决。

第二考虑到数据仓库的价格昂贵,通常数据仓库只会保留N+1月的数据。比如保留3个月数据,外加1个月的过渡性数据,或者是6+1个月的数据,如此,超出期限的数据,需要进行离线归档。今天的做法,可以把这些数据转移到Hadoop平台处理,在近线数据的基础上,对过往数据进行再利用。

第三创建特定的数据集市,可以把基于数据仓库的主题在Hadoop平台上来实现。

往前走,今天很多中国客户不在仅仅考虑数仓优化,而是倾向把传统数据仓库用Hadoop平台来替代。这是因为数据仓库、Hadoop都是手段而不是目的,分析平台最终的目标是满足企业业务支撑和创新的需求,要在规定时间窗口(SLA)内,把所需要的报表、或者查询能够返回给应用。

主持人:从业务创新应有的角度,基于Hadoop商业版的大数据应用有哪些典型的应用案例呢?

刘隶放:如果从全行业的角度谈论大数据创新应用,这会比较困难,原因在于大数据创新应用场景实在太多了。我们可以简单举个例子,此前Cloudera梳理过我们合作伙伴在中国本地的案例,其中证券行业的大数据应用案例就有30个之多。

其中,一方面是从这个IT运维角度出发应用,如数据仓库卸载,历史数据查询,用于提升IT的这种运维能力。

另一方面也包括帮助业务部门进行创新,如大家耳熟能详的360度客户视图、客户流失分析等。这些应用能够给业务部门带来指导和帮助。证券只是金融行业的一部分。在制造、政府、零售、电信等很多行业,我们都有很多案例可以分享。

 商业版的优势和价值

主持人:目前市场上可供用户选择的大数据产品很多,相比Cloudera提供的Hadoop商业版本有哪些特点和价值,有哪些优势?

刘隶放:我觉得这个是一个非常好的问题,Cloudera来到中国也有3~4年时间了,其实很多客户也会问我们这样的问题,到底为什么要选择Cloudera Hadoop商业版,而不是开源免费版本?

客户在选择Hadoop的时候,永远有两个选择:一个选择自服务型,采用免费版产品,自己做技术支持;另外一种选择是商业版。自服务型用户全球有一些,主要以互联网企业为代表,他们的IT技术人员有能力支撑和运维这个平台。相对来说,企业客户会更多地选择商用版。原因很简单,企业客户业务系统的主要目标是为了支撑自己业务发展和需求,它不求自己亲力亲为维护甚至做一个Hadoop平台支线。企业用户更加倾向能够为业务部门开发出更好的应用,所以还是不忘初心吧。

主持人:Hadoop商业版本主要还是在产品平台上面支撑。Cloudera商业版本带来什么呢?

刘隶放:首先带来了一个稳定的开源组件搭配的平台,如今社区版、商业版本,其实在开源产品组件是完全一样的。但在这个基础之上,Cloudera会提供一系列管理工具,以Cloudera为例,我会提供像Cloudera Manager这样的管理工具,提供类似像BDR这样的备份与灾难恢复功能,帮助用户搭建大数据灾备平台。这些工具、功能都是针对企业级客户去做的。

在这个基础之上,Cloudera还提供针对商业版本的专业产品平台支持服务。在Hadoop商业版本中,涉及29个开源组件,其中绝大多数组件都是由Cloudera在开源社区主导的。当客户遇到任何问题,都可以获得代码级别的技术支持。并且Cloudera为用户所提供的补丁代码,会在未来的Hadoop版本中得到体现。从而保障开放性和延续性。

技术支持之外,Cloudera还提供专业的咨询服务,Cloudera在国内外有众多用户案例,应用经验丰富,无论从用户案例方面,还是产品架构方面、性能方面,都能够提供指导。可以说,Cloudera的专业服务可以为企业用户的大数据应用保驾护航。

此外,Cloudera提供了专业培训服务,客户可以学习到Hadoop产品组件和CDH平台的最新的技能,提高自己的技术能力。

主持人:Cloudera的技术路线和竞争优势是什么?

刘隶放:优势如何体现会是一个比较立体的问题。很多事物的形成,会有一个马太效应,也就是更多的使用,更多的被验证会让平台具有更强的生命力。也就是说,因为我们有越来越多的客户选取CDH平台,一开始可能只是考虑它是一个数据存储平台,之后在这个基础上就会产生越来越多的应用,越来越多的用户案例体会现在存储平台之上。行业相关的成功案例会引领更多的用户考虑采纳CDH平台。

从Cloudera公司成长过程中也看到,之所以说Cloudera引领了Hadoop的发展,也是因为用户越来越多地使用这个平台,带来了很多案例,然后促成这个产品不断的往前走,知道产品的发展方向。

主持人:有人说机器学习最佳的承载的平台应该就是Hadoop,这个说法成立吗?

刘隶放:我觉得这应该就是一个正确的答案。在机器学习这个方面,Cloudera有很多成功案例。Hadoop是机器学习承载最好的平台。

如今AI和机器学习在国内都很流行,其中最重要的还是数据。AI应用的第一步与以前的数据仓库应用很类似,首先还是数据抽取,加工和整理。如果数据没整理好,是不能去做所谓AI和机器学习的。为此,Cloudera在机器学习方面也做了很多的探索,也提供了针对数据科学工作者的平台产品。

如今客户应用机器学习和AI,还是需要一定的方法论或者指导思想,例如怎么能够去搭建一个适用于机器学习的平台?从数据的捕获开始,到数据加工处理,Cloudera提供了一系列管理组件来帮助客户实现这一目标。

Cloudera在中国有很多机器学习的客户实践,以中联重工为例,这是一家大型机械的研发和制造商。对于这些厂商而言,设备是非常宝贵的企业资产,用户的诉求是希望能够最大限度保证其健康工作,提高整体设备效率(OEE)。对此,中联重工利用机器学习算法,对这些设备提供预测性维护,减少设备故障给企业带来损失。

我们的客户和Cloudera合作,在金融、电信和制造行业创造出很多类似有价值的案例。

主持人:传统数据仓库在应用海量数据的时候,最大的一个问题就暴露性能不足,扩展性也没有办法满足需要。这个时候,用户就需要Hadoop商用版本,那么Hadoop在性能、弹性、扩展性真的就能够解决这些问题吗?

刘隶放:我们可以借鉴一些已经成功客户的案例。例如如果某个应用特点对网络带宽要求比较高,带宽很有可能就会出现瓶颈,这时,我们就会遇到关系数据库相似的问题。如果数据分布设计不均衡,有的节点数据过多,有的节点数据很少,那也会造上述问题。

对此,建议大家能够去利用Cloudera提供的专业服务,在Hadoop应用架构、逻辑和物理设计上面设计一些指导。当然,可以强调的是:今天Cloudera可以支撑的算力,已经是传统数据仓库远远不能达到的,节点规模可以从几百个甚至上千个不等。从这个角度讲,通过系统架构调优和逻辑上设计,Hadoop平台可以实现非常好的扩展能。

主持人:在数据安全保障上,Cloudera提供哪些功能,有哪些优势?

刘隶放:这个正好是Cloudera Hadoop商业版本的优势所在。与其说是Cloudera Hadoop商业版本自己做这些功能,不如说是在成长的过程中,我们的客户要求我们提供这样的安全保障,在Cloudera成立之初,主要是服务金融、电信、制造这样的客户,和我们的客户一样,他们会觉得自己的数据是最宝贵的,其安全性是最为重要的。如今在大数据这个环境下,数据的管控难度非常之大,所以Cloudera从一开始就考虑怎么数据的安全治理,开发出一套安全体系架构。

今天采用Cloudera Hadoop商业版的客户,大多数从一开始就部署了安全体系。一方面,国家对安全合规方面的要求会越来越强;二来尽量不要等到系统规模很大之后,再考虑安全问题,而是从一开始就要考虑安全保障的问题。尽管事后部署安全也是可行的,但这牵涉到系统调整、性能测试等一系列的问题。

 Cloudera企业基因和文化

主持人:用户选择产品的同时,也是在选择合作伙伴?Cloudera公司有哪些特别之处,可以吸引Hadoop之父,Doug Cutting加盟?他的加盟带来了哪些影响和变化?

刘隶放:Hadoop如今已经有12年历史了。2006年的时候,Cutting先生首次把Hadoop核心用在自己的项目中。两年之后,Cloudera公司成立,很快,Cutting先生也加入公司,其中很重要的原因恰恰和用户的选择有关。

前面我们说过:用户无非就是在自服务和商业版之间进行选择。美银美林,全球最大的一个金融机构之一,在Cloudera成立两年后,就选择了Cloudera做商业Hadoop支持。

Cloudera很幸运,因为当时市面上只有Cloudera一家商业版服务公司存在,所以对客户来说,它也没有别的选择。回顾Cloudera的成长历程,正是迎合美银美林这样的客户,企业需要什么,我们去为它做什么。从开始只有几十个节点,业务不过是数仓增强中的ETL改造,到2012年也不到100个节点。之后,越来越多的业务系统采用了CDH作为数据处理和存储的平台。到今天,集群规模已经超过了4000个节点。在这两年,集群规模几乎呈线性的增长。

如今,据客户自己统计,他们有超过一半数据放在Hadoop平台之上了,一共50个平台,对应150多种应用。例如金融反欺诈之类的系统,对客户来说,都是最重要的一级系统,全部基于Hadoop平台。为这些应用,他们还做了灾备系统,实现了企业级应用必备的功能。

一路下来,Cloudera还要真心感谢所有服务的这些大客户、集团,他们选择了我们,给予我们信心,认为我们就是他们可以信赖的合作伙伴。

所以从一个开源版本的成功,到一个商业版本的成功,其过程是相互促进发展的,给社会带来价值的同时,也会成企业从业人员的自豪感。

主持人:Cloudera提出了混合开源软件的模式?请问这是一种什么模式?

刘隶放:Cloudera是一家开源软件的公司,因此始终坚守对开源社区的承诺。

这个承诺一个方面是能够保持先进性和优越性,能够引领这些项目不断前进。另外一方面,就是说所有跟数据相关的组件都要回馈到社区。如今,最新的Hadoop 3.0版本最核心的组件,都是Cloudera公司领衔开发。

在Hadoop社区版本3.0之后,Cloudera公司又花了将近半年的时间,推出了新的企业版。这个说明什么?说明我们首先是把所有代码先贡献到社区,然后再去做企业版,以及私有平台管理工具组件。

我们在市场上给大家提供的是专业知识能力、长期发展的平台能力。和传统软件企业不同的是,我们不会去锁定客户,如果用户觉得Cloudera服务不好,用户还是可以回到开源版本平台上,不存在兼容性方面的问题。

 Hadoop平台部署和交付

主持人:我们现在来回答用户在线提出的问题。有用户关注Cloudera企业版,有没有提供哪些不一样的功能组件。

刘隶放:我们企业板提供的功能组件与开源版本是完全一样,没有提供什么特殊的功能组件。刚才我们介绍过管控平台,它是私有平台,但它并不是组件。如今Cloudera平台提供了29个开源组件的打包,这就是一个技术路线的选择,我们的私有管控平台对这些组件进行统一安全管控。

主持人:用户关注另一个方向,类似MPP并行数据库技术,能否对比一下它和Hadoop技术的差异?

刘隶放:抛开成本、架构扩展性这些Hadoop固有的优势不说,对比而言,Hadoop有两点优势,第一是对于非结构化/半结构化数据处理,Hadoop可以支持Read-on-Schema模式,就是传统数据库很难做到的。此前。关系型数据库很大的一个问题就是数据版本问题,尽管有预留列等方法规避,但还是非常麻烦。此外,在对半结构化数据处理的方面,我们会非常有优势。

再有就是实时处理,这其实非常难的。借助流式加工处理组件,Hadoop可以让数据实时入库,同时进行实时的分析和处理。这种现代化的平台架构,是传统架构很难去体及的。所以说除了平台扩展性之外,我们在数据类型模式和流式数据处理上有非常大的优势。

主持人:用户关心另外一个话题就是云的问题,毫无疑问,云是一个绕不开问题,请介绍一下Cloudera在云方面的战略?

刘隶放:Cloudera非常重视Hadoop在云上的发展。目前我们在云方面收入占比非常大,未来还会进一步增加。

Cloudera云战略可以从公有云、私有云两个层面展开,在公有云方面面,AWS和微软的Azure比较成熟,Cloudera在这两个平台都有一个发展路线图以及用户群体。在中国来说,AWS、Azure部署可能还需要一定时间。

相比中国客户更加关注私有云部署问题,目前已有的几个核心客户,都在积极进行部署和尝试,用户在这方面非常强烈的需求。

存储对象分离是Hadoop在云上部署下一阶段的目标,这是一个非常大的变化。目前在公有云上已经实现,私有云上还亟待对象存储标准的统一。很多时候用户数据是要持久化,要长期存储的。但计算资源有时候希望按需分配,当我不需要的时候,要把资源拿走,然后考虑去做其他的事情。

我们有些国外的客户案例,他们的核心计算资源还都在本地私有平台上部署,但是已经把系统的备份完全放到云上面去做。我们在云上面做了很多安全相关的工作,确保这个数据是安全的,例如加密键值可以存在本地,保证核心客户数据安全性。

在云部署方面,Cloudera做了一个非常有前瞻性的产品,叫SDX。之前我们谈存储计算分离是一对一的。但是客户有时候会有这样的需求,不同的业务应用,需要的数据是共享的,但是对计算模块的组件和能力要求是不一样的,有交互式访问需求,也批量处理的需求。不同的计算模块对应的业务是不同的,有所谓微服务需求,有没有可能去提供这种不同业务计算模块的支持能力?

而且,考虑到Hadoop组件会不断地往前演进,以前如果所有组件都在一个平台之上,这个时候要考虑:当有一个计算模块需要升级的时候,其他组件还跟其他应用相配合,所以要去考虑所有组件里同时升级联调的问题。那么现在有了SDX,就可以把计算模块的资源剥离开,每一个计算模块都对应一个或者几个组件,然后去支持它自己的应用。需要的时候,只要升级这一个计算模块就可以了。

 结语

今天,我们讨论了很多选型层面的内容,对传统数据仓库技术、Hadoop商业版进行了对比和分析,同时也对Cloudera企业文化进行了介绍,并一起探讨了有关部署、以及云方面的话题。其中,很多的技术大家都可以通过试用版本加以认真的体会。

感谢Cloudera大中华区售前技术总监刘隶放先生精彩的讲解和经验分享。

相关文章

网友评论

    本文标题:选型宝访谈 | 如何基于Hadoop打造大数据分析及机器学习的平

    本文链接:https://www.haomeiwen.com/subject/grdhrctx.html