随着技术的积淀,AI正在走出象牙塔和实验室,步入商业世界,成为撬动社会发展和经济增长的新杠杆。人工智能的发展为世界带来了日新月异的变化:社会行为全面数字化,政府、商业公司、生活娱乐等决策制定全面智能化 ,从机器为人服务变成人机协同生活,程序的逻辑从 IF-THEN-ELSE , 转变成 INPUT-LEARN-PREDICT;技术的组织梳理从DAL-BLL-UI,转变成 DATA-MODEL-ROBOT,同时降本增效、政府监管需求进一步放大更促进了社会向人工智能的转型。
然而,这一进程却并不是一帆风顺的,由于AI技术太新太难也太复杂,对于众多技术储备并不丰沛的传统行业企业而言,AI应用的落地正面临技术门槛高、基础设施要求高、建设成本高等一系列难题。在转型AI的时代,无论是从IaaS基础设施还是PaaS平台层面来说,机遇与挑战并存。
面向AI的(IaaS) 体系结构、基础设施建设
数据与算力的爆发为面向AI的IaaS体系结构、基础设施建设带来了新的机遇,也触发了新的挑战。
随着数据爆发和算力提升将推动AI发展,为AI基础设施建设带来了重大机遇,使得智慧城市,智慧生活成为可能。从数据爆发的角度来说,根据相关机构预测到2025年,全球数据圈将从2018年的33ZB增至2025年的175ZB。随着庞大数据量不断增长,人工智能解决问题的数量和质量也将增加,这也使得算法、模型复杂度进一步提升。为了适应数据爆发,模型变得更宽、更深、更复杂,能够覆盖更复杂的业务场景,支撑物联网,千人千面等以前不能支撑的精细化定制化运营方式。而从算力的角度来看,回望过去20余年,计算机的性能成几何级数增长,2015年的计算性能相比1993年约为50万倍。算力的发展,使得使用AI硬件体系结构、定制化加速硬件、计算芯片,进一步释放机器学习算法的潜力、提升海量规模数据的利用成为可能。
而机遇总是伴随着挑战。一方面,超高维的机器学习能力,能够大幅提高企业数据模型维度,带动机器学习效果的提升,增益数据价值;另一方面,通过AutoML等技术的引入,它也能有效降低AI的使用成本和门槛,让更多传统行业企业有能力将AI应用部署到更多业务场景中去。而围绕专家构建AI超高维系统,围绕AutoML技术构建应用系统,都将带来算力的巨大需求。传统的大数据基础架构+AI算法的拼接,面临机器规模激增、新业务探索投入产出比差、联机业务运维成本高昂等问题。
面对这样的机遇与挑战,我们不难发现,AI基础设施建设是系统性工程,不是简单的CPU、GPU硬件堆砌。它需要业务+算法+平台 + 数据 +算力的统筹优化,需要为企业支撑有核心竞争力的AI PaaS平台。 而为企业支撑有核心竞争力的AI PaaS平台同样也是机遇与挑战共存。
面向AI的(PaaS) 平台
随着AI落地应用的场景越来越多,一方面来说,小范围探索性的AI场景验证,已经转变成广泛大规模的AI生产上线,AI落地的业务价值在各行各业各场景下得到体现。另一方面,AI数据计算的管理和汇集,以中心枢纽的形式支持着跨行、跨国、跨领域的AI协同合作。这些条件使得面向AI的PaaS平台建设成为强需求。
然而面向AI的PaaS平台建设并非易事,一个企业级的AI PaaS平台面临着诸多挑战。这些挑战主要分为集中性,安全性,灵活性和可扩展性四个方面。首先,集中性意味不仅要求数据资产、模型资产的统一积累和管理,还对硬件资源的统一调度和租户管理提出了要求。第二,安全性则包括了审计功能和代码安全的统一化页,国产化与知识产权保护背景下(开源License、国内外商业软件授权控制)的监管和来自国家金融监管科技的标准和要求。第三,从灵活性的角度来说,AI的PaaS平台不仅要求资源的灵活分配与调度,还要求扩容与缩容应用程序开发接口的开放性以支撑多类型业务。最后,可扩展性也是AI的PaaS平台必不可少的特点。因为随着人工智能技术算法与技术架构的发展,必须能够在保持系统安全稳定运行的情况下及时升级,才能维持技术水平领先。
综上所述,充分释放AI时代的业务潜能,需要强大的IaaS、PaaS支撑。支撑全球领先的用户群体+数据规模+场景服务,可以考虑构建完全国产化的、集中性和可扩展性统一的IaaS和PaaS能力,打造AI闭环的核心竞争力。AI竞争的背后是算力的竞争,更高的算力意味着更快速的落地、更高效的投入产出。
面向AI的应用层面建设
传统应用的加速AI化,以及视觉、语音、NLP等源生AI应用的探索和落地,将对计算基础设施提出前所未有的巨大需求。源生的感知类AI应用将经历早期、发展到成熟三个时期。决策类AI应用将从25%逐步发展到100%。
【图】
从AI建设最上层的应用层面来看,AI应用离不开场景。大量AI算法负载和AI场景应用负载产生了巨大算力需求。作为AI应用负载的对基础设施的要求和已有的传统IT基础设施有着显著不同。
将传统IT基础设施所提供的特性和AI应用负载所要求的特性进行对比,我们可以发现:传统IT基础设施是为Web/Mobile/数据库/大数据应用而建,将Scale-up 和 Scale-out进行了区分。从芯片角度来说,传统IT基础设施使用通用服务器和芯片,单颗芯片性能有限;从存储角度来说,传统IT基础设施使用中低配内存加上大容量低速存储;从网络角度来说,传统IT基础设施以纵向流量为主的Spine Leaf网络拓扑,中低速网络为主;而从供电散热角度来说,传统IT基础设施以标准电流供应为主,采用传统风冷散热技术。
而AI应用负载,场景主要是实行高维分布式机器学习/深度学习训练,在业务场景中实时决策和感知。AI场景中数据量和模型复杂度极高,复杂稀疏矩阵运算多的情况,AI应用负载所要求的IT基础设施需要适应这些场景的需求。并且AI应用负载具有计算密集、访存密集的特点,产生大量中间结果用于模型迭代,高维稀疏模型需要大容量存储空间,集群内频繁大规模数据交换,AutoML算法需要更多算力支撑,比传统应用需要更高功率。
AI的应用普及先行一步,而基础设施如果没有跟上步伐,其中带来的问题显而易见。AI应用负载运行在传统IT基础设施上,导致模型训练不充分、模型效果打折扣,AI应用性能无法满足业务需求,新系统上线周期长,机架数量制约算力扩容,和供电、散热等成本占比偏高,并业务增长/变化的速度受制约,Performance/dollar不理想,AI系统建设TCO居高不下。
异构计算加速AI全流程
为了不要让基础设施制约业务增长,使用异构计算加速AI全流程是一个很好的思路。
关于异构计算加速AI全流程的方法一般可以为分别两个部分。第一个部分是:芯片级异构。这包括四种类型: 第一 ,CPU:Cascade Lake AP,单处理器最大48core,更多内存通道,更高访存带宽和EPYC处理器,Vega 7nm技术;第二,GPU:Tesla V100 训练,Tesla P4/T4 推理,CUDA编程框架和Tesla V100 训练,Tesla P4/T4 推理,CUDA编程框架;第三,FPGA:用于AI训练/推理加速,硬件级计算加速,OpenCL,更低每瓦特性能,更高的加速性能和更低设备间互联延迟;第四,其他:TPU/NPU,ASIC专用芯片,边缘计算芯片,国产芯片,海光/沸腾,光芯片,神经芯片和量子计算。
第二个部分是:系统级异构。这其中包括三个部分。第一。高密度节点:Intel 9200 Walker Pass,2U2N / 2U4N,Up to 8 x Cascade Lake AP,Up to 384 Core,有更高的单位面积计算密度和更低的TCO;第二,GPU集成系统:Nvidia HGX / DGX,4U8卡 / 10U16卡,Tesla V100加速卡和NVLink加速CPU/GPU通信;第三,水冷技术:On-chip冷却,Direct-to-node冷却,Rack冷却和大幅节省功耗,PUE小于1.1。
如何解决AI建设各层面痛点
第四范式提供的解决方案将会从I/O,网络,计算三个方面来解决AI基础建设的痛点。
高性能闪存,全面解决AI计算的I/O瓶颈问题
首先,针对AI时代I/O访存瓶颈,第四范式使用高性能闪存,全面解决AI计算的I/O瓶颈问题。目前高维AI训练/推理过程遭遇四大I/O瓶颈。第一是高维稀疏模型大小GB~TB量级,需要分片分节点存储;第二,访存频繁,CPU性能受限于访存带宽;第三,产生大量中间结果用于模型迭代,落盘速度制约训练效率;第四,在线实时复杂特征计算,需要高性能缓存支撑;为了给AI工作负载提供高性能、高性价比的存储环境,第四范式做了开创式三大创新。第一,NVMe/3Dx Point闪存技术;第二,Intel全新Optane SSD,扩展virtual memory空间,削减CAPEX和高性价比SSD用于离线;第三,在线计算cache,大幅提升AI运算速度。
高带宽&低延时网络,强化东西向吞吐,提升AI训练性能
现存Spine Leaf网络拓扑解决南北向流量问题,但大规模AI训练负载造成东西向“流量风暴”有网络密集型通信,大量的数据分布在不同的计算节点中,训练引擎需要不断计算模型权重,并和其它节点同步优化结果,从而协同计算,同步成为性能瓶颈,模型规模增长,需要更高带宽,高维模型造成权重的数量呈指数增长和计算是同步的,所以通信表现为网络突发流量。高带宽&低延时网络,强化东西向吞吐,提升AI训练性能有:第一,带宽从千兆/万兆升级到100G/200G甚至更高;第二,从铜缆升级到光纤;第三,RDMA技术运用,提升跨节点间数据交换效率;第四,InfiniBand网络,最小化通信延迟;第五,通过强化网卡计算能力,降低CPU负载,提升通信效率。
高性能计算:一体化集成系统带来更大AI业务价值
一体化集成系统是集算法,数据和计算基础设施为一体的高性能AI集成系统。而松耦合软硬件是通用处理器,加速卡,存储,硬件提供商,大数据平台和开源AI框架的松散集合。一体化集成系统涵盖三大特点:第一,端到端优化适配,最大限度发挥软硬件效能,大幅提升性能表现;第二,整机柜交付,将交付周期从人/月级缩短至人/天级;第三,一站式解决AI应用的软硬件兼容问题,提升系统稳定性,显著降低运维成本。这样的基础设施拥有更好性能/价格比,更低算力/功耗比,更少计算面积,更低总拥有成本。因而使得业务应用拥有更敏捷的业务响应,更低的运营成本,更精准的实时决策,更稳定的业务表现。综上所述,一体化集成系统,意味着更高效的基础设施,从而意味着更大的AI业务价值。
一体化集成系统为AI场景带来质的飞跃
通过与AI行业核心基础设施技术提供商 英特尔公司的深度合作,第四范式AIO引入Intel Cascade,Optane 固态硬盘等技术,拥有了更充沛的算力,进一步加速了企业实施AI应用的进程。
在AI数据处理能力上,结合英特尔Cascade Lake CPU,与第四范式软硬一体的优化,先知AI平台分布式模型训练框架训练速度获得飞跃。在TB级数据规模下,“第四范式先知”平台的模型训练速度可达Spark的数千倍。同时,平台将常用、有效的数据处理过程进行了产品化封装,用户只需简单配置即可对原始数据表进行复杂计算与处理,使数据处理工作量减少80%
英特尔 Optane 固态盘则是“第四范式先知”平台引入的另一项英特尔 “杀手锏”,其革命性的3D XPoint™ 技术,正在打破内存和固态盘之间的边界。它对于高吞吐量、低延迟、高服务质量、高耐用性和非易性特性的融合,使得它成为第四范式构建高效分布式多级存储系统的基石,该系统让“第四范式先知”平台获得了更高效的存储和查询能力。 高性能实时特征数据库也因为引入Optane,打造了5G-ready的超低延时,以及持久化存储的能力。
目前,软硬一体支撑的核心AI算法已经广泛应用到业务场景中。
在金融反欺诈领域,金融机构的传统做法是通过专家系统来辨识欺诈风险,但这一系统穷尽人力和经验,也只能总结出数千条专家规则,要用来应对日趋智能化、高频化和精准化的金融欺诈,明显力不从心。AI形成超高维的机器学习能力来应对这一挑战。在数据预处理环节,该平台采用全量样本进行数据建模。在特征工程阶段,平台抽取交易报文、用户信息等基本信息,再结合客户在业务中的历史行为等多样化特征,利用超高维的机器学习算法,以及端到端软硬一体AI基础设施的强悍算力,通过将交易报文中的原始字段进行超高维组合和衍生,最终形成总量超过25亿维的特征集。这些创新帮助其提升信用卡交易反欺诈识别准确率达7倍以上。同时,在端到端软硬一体AI基础设施强劲计算能力的支持下,平台能够在20毫秒内就完成从线上数据集成到提供最终欺诈评分的全过程,从而实现“事中反欺诈”。不仅如此,通过对英特尔架构服务器进行横向扩展, 该平台更能实现每秒数十万笔交易的吞吐量,使金融反欺诈系统真正实现了实时化。
在金融产品推荐领域,软硬一体支撑的核心AI算法将个性化金融产品推荐场景的点击率107%~574%倍,将规则从1,000条人工专家规则增加至2,500,000,000条机器+人工规则。该软硬一体基础设施正在为中国金融行业总资产的半数以上金融资产提供个性化金融服务推荐,反欺诈,反洗钱等服务。
在个性化内容分发领域,软硬一体支撑的核心AI算法将点击率提升30%~35%,将业务规则从100条规则到1,000,000,000条规则,帮助1000多家客户搭建基于AI的先进推荐系统。
在糖尿病检测等领域,软硬一体支撑的核心AI算法帮助医疗客户将预测准确率提升2—3倍,将业务规则从10条规则到500,000条规则,全面精准预测,提前治疗和预防。
第四范式也在帮助信贷风控、供应链金融、智能获客广告投放、智能客服等众多行业和领域的企业用户实现AI应用的落地。
“第四范式先知”平台定位于企业级AI核心系统,由数据核心、算法核心、生产核心三大模块组成。通过与英特尔领先硬件产品与技术的深度结合,该平台不仅覆盖了AI在生产中的各个应用环节,同时也显著降低了AI的应用门槛,让传统企业应用AI变得更为简单高效,并能帮助企业实施从战略、策略到执行的全面智能化。
高维数据模型突破机器学习效果瓶颈
著名科幻著作《三体》*曾勾勒出一种高维空间,可实现许多低维空间不可能完成的事情。在“第四范式先知”平台上,工程师们也巧妙地将数据“升维”, 通过平台内置的高维模型算法和特征工程算法,结合英特尔高性能硬件产品提供的强大算力,在万亿级大数据和海量特征场景下,平台也能表现出出色的计算性能,得到令人满意的评估效果。
数据是企业构建AI应用的本源,如今企业的业务会产出TB级,乃至PB级的海量数据。在早期系统中,囿于人力的局限,或者对非结构化、非数字化数据处理能力的不足,企业对海量数据的利用,往往处于低维度状态,从而无法深度发掘数据内蕴含的巨大价值。
在机器学习中,数据的维度越高、数据处理速度能力越强,学习效果就越佳。在数据处理能力上,第四范式自主研发的分布式模型训练框架也让训练速度获得飞跃。在TB级数据规模下,“第四范式先知”平台的模型训练速度可达Spark*的数百倍1。同时,平台将常用、有效的数据处理过程进行了产品化封装,用户只需简单配置即可对原始数据表进行复杂计算与处理,使数据处理工作量减少80%2。
网友评论