以云计算、大数据、人工智能、区块链等为代表的新一代技术已经崛起,不断向金融领域渗透、银行也通过信息科技转型、数字化来应对挑战,保持传统金融行业“高可用、高标准、低风险”特性的同时,也增加了互联网金融对“高性能、高弹性、低成本”方面的要求。
经过多年的发展和演进,走出了一条解决海量数据存储、计算以及应对高并发交易的道路,通过微服务分布式架构、云计算和大数据等技术构建了一套能满足业务发展要求的技术体系。
1.1 容灾
在系统高可用架构设计中,容灾能力的建设不可或缺,容灾设计强调的是系统对灾难时间具备快速响应能力,保障系统持续高可用,系统面对异常情况,如软硬件自身故障,外界环境影响(自然灾害)需具备快速恢复能力,保障系统的持续高可用。
衡量灾难恢复能力的级别有两个技术指标,RPO(Recovery Point Objective,恢复点目标)和RTO(Recovery Time Objective,恢复时间目标)。RPO用于表示灾难发生后,系统和数据必须恢复到的时间点要求。RTO用于表示灾难发生后,信息系统或业务功能从停顿到必须恢复的时间要求。RPO和RTO与灾难恢复能力登记的关系与时间有着密切的联系。
容灾方案须满足3个要素:①应用和数据都具有冗余性②冗余备份位于距离较远的物理位置③数据备份系统具备全方位的数据复制能力。
容灾从保护等级上划分可以分为3个级别,分别是数据级别、应用级别及业务级别,三者的关系可以用3个嵌套的同心圆表述,业务恢复等级逐步提高,需要投资的费用也会相应增加。
1.1.1 数据容灾
可靠的容灾能力除了应用、数据都具有冗余性外,还需要确保备份在物理上具有长距离性(上百千米以上)。可以的容灾能力需要具备全方位的数据复制能力。
1.1.2 应用容灾
应用容灾在数据容灾纸上,建立一套与生产系统相当的备份应用系统,在灾难发生后,将应用迅速切换到备用系统,备份系统承担生产系统的业务运行,其核心关注点是连续的应用服务,是在数据容灾的基础上,把应用系统也备份到容灾站点。应用容灾和数据容灾最大的区别是在生产中心发生灾难时,灾备中心是否具备接管中心的业务的能力,能否保障业务的连续性。应用容灾确保系统能提供可持续的服务,当灾难发生时,让用户的服务请求能够透明地持续正常处理,保证信息系统提供完整、可靠、安全的服务。
银行核心应用系统(如账务)一般部署在主机平台上,使用小型机(一种介于PC服务器和大型机之间的高性能计算机,主要支持UNIX操作系统)构建,可用性高,运行稳定,但也存在风险集中、处理能力触达瓶颈后伸缩性不够、价格昂贵等问题。
1.1.3 业务容灾
业务容灾是最高级别的容灾方案,数据容灾和应用容灾都是在IT范畴之内,而业务容灾除了做到数据和应用的容灾外,还需要确保非IT系统的连续性,比如电话、办公地点等。
1.1.4 部署结构
以“同城双中心”(生产中心、同城灾备中心)和异地灾备中心组成“两地三中心”的部署结构可以支撑较高的业务连续性保障水平。该结构可解决单机房在电力、面积等方面的限制,规避数据中心所在楼宇发生的灾难、地域性自然灾害和人为破坏(如网络光纤被挖断)等导致的数据中心故障风险。
传统的“两地三中心”部署结构并不能很好地应对“同城双中心”同时发生故障的情况,当进行异地灾备中心切换时,数据同步到异地灾备中心的过程存在延迟,即RPO不等于0。
在实践过程中,当发生城市级别故障时,在同城两个数据中心都不可用的情况下,企业往往不敢切换到异地灾备中心,而是等待“同城双中心”故障恢复,忍受一段服务不可用时间。
有别于“两地三中心”,“多活中心”的部署结构在少数数据中心发生故障或灾难时,其余每个数据中心都可以正常处理业务并对关键业务或全部业务实现接管,实现用户的“故障无感知”,多数据中心之间地位是均等的,已无“主备”之分,在正常模式下协同工作,并行为业务访问提供服务,实现对资源的充分利用,避免了个别数据处于限制状态,造成资源浪费。但要实现“多活”数据中心的架构需要解决流量调配、数据拆分、时延等方面的问题,挑战巨大。
网友评论