CDH
Cloudera是最早开展商业大数据服务的公司,面向企业提供商业解决方案,也就是支持企业解决我上面所说的问题。Cloudera提供技术咨询服务,为企业向大数据转型提供技术支持。同时Cloudera也开发了自己的商业产品,最主要的就是CDH。
imageCDH是一个大数据集成平台,将主流大数据产品都集成到这个平台中,企业可以使用CDH一站式部署整个大数据技术栈。从架构分层角度,CDH可以分为4层:系统集成,大数据存储,统一服务,过程、分析与计算。
- 1.系统集成:数据库导入导出用Sqoop,日志导入导出用Flume,其他实时数据导入导出用Kafka。
- 2.大数据存储:文件系统用HDFS,结构化数据用Kudu,NoSQL存储用HBase,其他还有对象存储。
- 3.统一服务:资源管理用Yarn,安全管理用Sentry和RecordService细粒度地管理不同用户数据的访问权限。
- 4.过程、分析与计算:批处理计算用MapReduce、Spark、Hive、Pig,流计算用Spark Streaming,快速SQL分析用Impala,搜索服务用Solr。
值得一提的是,Cloudera也是Apache Hadoop的主要代码贡献者。而开源产品也需要大的商业开发者的支持,如果仅仅就是零零散散的个人开发者,这样的开源产品的发展将很快失控。而商业公司也需要参与开源产品的开发,保证开源产品的发展路径和自己的商业目标保持一致。
除了Cloudera,还有一家比较大的大数据商业服务公司叫HortonWorks。近期(2018年10月),Cloudera和HortonWorks宣布合并,这样全球范围内大数据商业服务的格局基本已定。这或许意味着大数据技术领域的创新将进入微创新阶段。
星环科技
商业模式和Cloudera一样,主要是为政府和传统企业向大数据转型过程中提供技术支持服务。核心产品是类似CDH的TDH,如下图所示。
image
面向企业提供解决方案是早期IT服务厂商的主要商业模式,通过产品、服务、技术支持等方式向企业收费。IBM、微软、Oracle都是基于这样的商业模式赚得盆满钵满。早期的Cloudera也是基于这样的商业模式,并很快崛起。但是技术时代的变革来的实在是太快了,幸福的日子很快就过去了。
大数据云计算服务商
现在所有应用程序都部署在云上,数据也产生在云端,这样自然而然的,大数据也在云上处理处理即可,主流的云计算厂商都提供了大数据云计算服务。
云计算厂商将大数据平台的各项基本功能以云计算服务的方式向用户提供,例如数据导入导出、数据存储与计算、数据流计算、数据展示等,都有相应的云计算服务。我以阿里云为例,一起来看看云计算厂商的主要大数据服务。
1.数据集成:提供大数据同步服务,通过提供reader和writer插件,可以将不同数据源(文本、数据库、网络端口)的数据导入、导出。
2.E-MapReduce:集成了Hadoop、Spark、Hive等主要大数据产品,用户可以直接将自己的MapReduce、Spark程序或者Hive QL提交到E-MapReduce上执行。
3.分析性数据库AnalyticDB:提供快速低延迟的数据分析服务,类似Cloudera的Impala。
4.实时计算:基于Flink构建的流计算系统。
我们看阿里云提供的这些服务,从技术栈角度看,几乎和Cloudera的CDH一样,这是因为人们的需求就是这样,只是提供的方式不同。Cloudera通过CDH和相关的技术支持,支持企业部署自己的大数据集群和系统。而阿里云则将这些大数据产品都部署好了,使用者只要调用相关API就可以使用这些大数据服务。
阿里云将这些大数据基础服务和其他大数据应用服务整合起来,构成一个大数据产品家族,这就是阿里云的数加。数加功能体系如下。
image
大数据SaaS服务商
大数据存储和计算固然有难度和挑战,也因此有了不少解决方案提供商。但是大数据的采集、分析、展现也有一定的门槛和难度,能不能帮企业把这一部分也实现了呢?这样企业无需关注任何技术细节,甚至不需要做任何技术开发,就可以拥有大数据采集、处理、分析、展示一套完整的大数据平台。
如果说云计算厂商把大数据服务当作基础设施(基础设施即服务,IaaS)和平台(平台即服务,PaaS)提供给企业使用,那么还有一些企业,直接把大数据服务当作软件提供给企业(软件即服务,SaaS)。
对于像友盟、神策、百度统计这样的大数据SaaS服务商来说,你只需要在系统中调用它提供的数据采集SDK,甚至不需要调用,只要将它提供的SDK打包到自己的程序包中,就可以自动采集各种数据,传输到他们的大数据平台。
然后你登录到他们的大数据平台上,各种数据统计分析报告已经自动生成,甚至和行业同类产品的对比数据也已经生成。此时你只需要查看、分析这些数据就可以了,几乎不需要做任何开发。
当然这类大数据SaaS厂商提供的服务比较简单,如果需要精细化、定制化地进一步采集数据、分析数据,还是需要自己调用接口进行开发。
但是,即使是不做进一步的开发,对于很多初创互联网产品而言,百度统计这类大数据服务提供的数据分析也是极有价值的。
大数据开放平台
除了上面提到的这几类商业大数据平台,还有一类大数据商业服务,就是大数据开放平台。
这类平台并不为用户提供典型的数据处理服务,它自身就有大量的数据。比如各类政府和公共事业机构、各类金融和商业机构,它们自己存储着大量的公共数据,比如中国气象局有海量的历史天气数据、中国人民银行有大量的客户征信数据、阿里巴巴有海量的电子商务数据。
如果这些数据是公共所有的,那么使用者就可以直接提交计算请求到这些大数据开放平台上进行计算。如果这些数据涉及保密和隐私,那么如果在不涉及用户隐私的情况下,也可以计算出有意义的结果,比如使用阿里巴巴的数据可以统计出区域经济繁荣指标和排名。
还有一种风控大数据开放平台,结合用户数据和自身数据进行大数据计算。金融借贷机构将借款人信息输入风控大数据平台,大数据平台根据自己的风控模型和历史数据进行风险分析,给出风险指数。金融借贷机构根据这个风险指数决定用户贷款额度和利率等,而风控大数据平台又多获得了一个用户数据,可以进一步完善风控模型和数据库。
网友评论