背景 客户A是一家运行CDH 5.14.2的金融服务公司。他们拥有运行关键工作负载的开发、测试和生产集群,并希望将其集群升级到CDP私有云基础版。客户升级有几个主要原因:
• 利用现有的硬件资源,避免通过添加新硬件来进行迁移的的昂贵资源、时间和成本。
• 使用CDP私有云基础版中提供的新的流传输功能,对他们的体系结构进行现代化升级,以实时获取数据,以便快速将数据提供给用户。此外,客户希望使用CDP私有云基础版7.1.2附带的新Hive功能。
• 客户还希望利用CDP PvC Base中的新功能,例如用于动态策略的Apache Ranger,用于血缘的Apache Atlas,全面的Kafka流服务以及在旧CDH版本中不可用的Hive 3功能。
CDH到CDP的新功能 确定客户A感兴趣的领域 | |
Hive3 | Hive-on-Tez提供更好的ETL性能 ACID事务,ANSI 2016 SQL支持主要性能改进 查询结果缓存 物化视图 改进的CBO,矢量化覆盖率 |
安全 | 使用Knox的基于网关的SSO 支持Ranger KMS-Key Trustee集成 |
Ranger 2.0 | 动态行过滤和列掩码 基于属性的访问控制和SparkSQL细粒度访问控制 Sentry到Ranger迁移工具 |
Atlas2.0 | 血缘和监管链,高级数据发现和业务词汇表 Navigator到Atlas的数据迁移,提高了性能和可伸缩性 |
流媒体 | 支持与HDFS,AWS S3和Kafka Streams的Kafka连接 对Kafka集群的集群管理和复制支持 使用Cruise Control在集群之间存储和访问架构以及重新平衡集群 |
客户环境 客户具有三种环境:开发、测试和生产。为了最大程度地减少风险和停机时间,按该顺序执行升级,并将每次升级的经验应用于下一个升级的环境。总数据大小超过1 PB。
服务 | 集群类型 | 数据大小 | CDP版本 |
Kafka,SRM,SMM | 测试和质量检查 | 7.1.2 | |
Hive, Ranger, Atlas, Spark. Ranger KMS, KTS, CM和CDSW | 生产 | 1.5 PB(已复制) | 7.1.2 |
Hive, Ranger, Atlas, Spark. Ranger KMS, KTS, CM和CDSW | 测试和质量检查 | 7.1.2 | |
Kafka | 开发 | 100TB | 7.1.2 |
Kafka | 生产 | 7.1.2 | |
Hive, Ranger, Atlas, Spark. Ranger KMS, KTS, CM和CDSW | 开发 | 7.1.2 | |
Syncsort(合作伙伴产品) |
升级团队
升级由一个包括客户、Cloudera客户团队和专业服务人员在内的工作组推动。Cloudera团队包括专业服务解决方案架构师和服务交付经理。客户团队包括数名Hadoop管理员、一名程序管理员、一名数据库管理员和一名企业架构师。此外,各个应用程序团队为测试和部署其工作做出了贡献。一些客户可能还需要包括平台/基础架构、网络和信息安全资源。
升级规划、过程和实施 客户使用Cloudera 专业服务来执行深入分析和升级支持。一次重大升级通常会带来一些风险,Cloudera PS可以通过深入的计划和测试来缓解这些风险,包括功能更改、不兼容的数据格式、不赞成使用的较旧的组件或更改数据库架构。生产环境的重大升级可能需要数小时至数天的停机时间,因此,高效且有计划地进行升级以最小化风险至关重要。 该过程从创建基本需求以及每个升级以及测试步骤和过程的深入计划开始。
o sentry角色->Ranger角色
o Sentry给父对象的赋权也包括孩子对象->Ranger的粒度更细,因此翻译成可为父和子(父数据库,子表)启用创建策略
o Sentry的Owner概念->Ranger ALL特权
o Sentry 的 OWNER WITH GRANT OPTION->Rannger的带委托管理员的ALL权限,且不是过渡状态
o Sentry Hive / HDFS ACL同步未包含在CDP-DC 7.1中(路线图)
o 不建议使用sentry风格的GRANT / DENY语句。而是使用Ranger REST API。
• 通过将业务元数据(标签、实体名称、自定义属性、描述和技术元数据(Hive、Spark、HDFS、Impala)迁移到Atlas从Navigator 进行转换,过程如下所示:挑战和解决方案 遇到并解决了以下问题和挑战。
• Hive-on-Tez性能与Hive-on-MapReduce相比。
o 客户A想了解Hive on Tez与Hive on Mapreduce。这 对Hive on Tez具有很好的架构洞察力。
• Ranger,Ranger KMS和Atlas • 由于复杂的血缘规则和配置,Navigator至Atlas的迁移速度很慢。Atlas随附此 配置中指定的默认堆大小为2GB,更改以增加内存配置解决了该问题。 • 在升级Ranger KMS时导入策略步骤中出现的问题。将“ keyadmin”角色授予Ranger中的rangerkms用户有助于升级的Ranger KMS ACL导入步骤成功完成。 • Atlas到Kafka的连接问题。该问题在测试中发现,升级到7.1.2后已解决,Atlas能够通过SASL_SSL连接到Kafka。CDP私有云基础7.1.2已修复 。结论 从CDH 5.x升级到CDP私有云基地可能是一个复杂的过程,但是Cloudera团队拥有经过精心记录的过程,以减轻风险并实现平稳升级。客户A能够在10周内成功完成迁移并从其生产工作负荷中获取价值。通过利用Cloudera PS的专业知识,客户可以与Cloudera支持合作快速识别任何问题或风险,并迅速解决它们。随着应用团队的测试和新问题的出现,Cloudera PS和客户团队迅速投入调试,发现问题区域并通过建议缓解它们。这些建议包括配置更改或基于Cloudera与其他客户的持续学习而对客户实践的更新。
客户A在Cloudera PS团队的指导下成功地从CDH 5.14.2升级到CDP私有云基础版。这使他们能够启用现代数据体系结构,增强其流传输功能并为CDP旅程的下一阶段做好准备。 如果您准备开始升级到CDP私有云,请联系您的客户团队,并访问my.cloudera.com上的CDP Upgrade advisor,以评估集群的准备情况。
参考文献 CDP运行时发行说明
• CDP 7.1.3发行说明 • CDP 7.1.2发行说明 • CDP 7.1.1发行说明 安装参考 • 安装参考 • 安装文件 • 资料下载 作者:Karthik Krishnamoorthy & Hana Jeddy &Nicolae Popa 原文链接:https://blog.cloudera.com/upgrade-journey-the-path-from-cdh-to-cdp-private-cloud/
网友评论