7 月 28 日,由阿里巴巴集团发起,阿里巴巴 AIS 举办的 Alibaba Infra. Day 2018 (阿里巴巴 Infrastructure 技术开放日)在美国山景城计算机历史博物馆顺利举行。
图片为 Computer History Museum @Montain View, CA
图片来自:http://www.computerhistory.org
活动吸引到了来自 Google、Facebook、Twitter 等互联网公司超过 500 位工程师参与分享和讨论。阿里巴巴十几年来在集群管理、Linux 内核、数据库、数据仓库、存储、异构计算等多个基础设施领域的实战经验和最新产品细节,现分享如下。
Alibaba Infra. Day 2018 的主题是 the Golden Era,为大家揭示互联网基础设施领域发展正式进入淘金时代。随着全球互联网用户数量激增,数据成为现代社会愈发宝贵的资产,巨大的数据将在未来产生不可估量的价值。基础设施是互联网发展的基石,历次关键节点都伴随着基础设施的升级,从硬件到软件。
Alibaba Infra. Day 2018 是 Alibaba Infra. Group 在硅谷的第二届技术开放日活动,邀请了来自阿里巴巴 AIS 团队的 11 位技术大拿参与。Alibaba Infrastructure (AIS)负责阿里巴巴经济体软硬件基础设施,团队覆盖数据中心、网络、服务器、运维中心、内核、容器、JVM、调度、数据库、存储、中间件等多个领域,在美国桑尼维尔、西雅图、圣马特奥、中国杭州、北京、上海等多个国家和地区设有团队。
阿里巴巴基础设施事业群副总裁周明在大会上分享了阿里巴巴的商业生态大图,为更好地理解基础设施技术所支持的业务范围做了铺垫。
1999 年成立的阿里巴巴集团在全球超过 150 个国家和地区有超过 57000 名阿里同学,以“让天下没有难做的生意”为核心建立了多纬度的电子商务线上交易平台,业务包括 B2B 贸易、网上零售、购物搜索引擎、第三方支付、物流服务和云计算服务。
周明讲到:“阿里巴巴经济体中丰富的场景为技术同学们如何做好业务快速发展和落地带来挑战,业务产生的海量数据进一步激发了底层基础设施发展的需求。同时为了促进全球技术合作,引领创新科技的发展,阿里巴巴集团成立了达摩院,我们对技术的重视程度已经从把握现在望向了未来。”
阿里巴巴高级研究员李飞飞(花名飞刀)在主会场发表了主题演讲,为大家分享了阿里巴巴技术架构全景。
李飞飞说道:“2017 年的双十一,当天录得创纪录的交易峰值:每秒 32.5 万次,同时创下新的支付纪录:双 11 开场仅 5 分钟 22 秒,支付宝达到每秒 25.6 万笔的支付峰值,为去年的 2.1 倍;数据库处理峰值达到创纪录的每秒 437 万次。这些数据的背后,是整个阿里巴巴技术同学们的努力,而一个清晰的技术架构为庞大经济体的运营提供了更稳定的支撑,是基石。"
阿里巴巴技术中台技术架构事业群提供了从网络到 IDC 到异构硬件到系统软件和中间件再到数据库系统的一整套技术解决方案,实现了在阿里巴巴复杂商业应用场景下面对大数据、高并发提供高效、安全、可靠、低成本的基础设施。基础机构事业群坚持自主可控的发展目标, 大规模应用和研发新技术,推动系统基础软硬件设施从研发到部署到管理的整个流程的信息化、自动化、和智能化。
以下是 Alibaba Infra. Day 2018 的分享简介。
李响,阿里巴巴系统软件事业部资深技术专家Large-scale Cluster Management
为了给数以亿计用户快速、稳定的服务,阿里巴巴在全球建立了数个大规模数据中心。这些数据中心为内部、外部提供着巨大的计算资源。阿里巴巴的集群管理器自动化这些资源的分配,并且推动了诸如弹性扩容、自动化运维、资源规划等技术的发展。这个系统使得开发者能够快捷、稳定地获取计算资源,并且充分保证分配的资源被有效利用。尽管我们已经做到了提高开发效率和降低成本,但是仍旧有很多开放性的问题需要去探索。
这个话题将会介绍阿里巴巴集群管理系统的概况,以及这几年所解决的有挑战性问题。这些挑战包括业务混合部署、高峰流量处理等。我们会解释这些技术的背后驱动:阿里巴巴独特的商业和技术需求。最后,我们会探讨由诸如Serverless、人工智能、IoT 等阿里巴巴的飞速发展的计算领域带来的更多难题。虽然还不知道对这些问题的最好解法,但是我们在一如既往地努力解决问题。
刘博,阿里巴巴系统软件事业部高级技术专家Linux Kernel Development
现如今 Linux 已经统治了服务器领域,Alibaba 所有的服务都建立在 Linux 之上。Linux kernel 作为 Linux 生态中最重要的一环,需要被管理起来从而为 Alibaba 基础架构提供具有 RAS 的操作系统。本次分享介绍了 Alibaba kernel team 如何在 Alibaba 生态中融入 Linux kernel,和如何在 kernel 的前瞻领域中持续创新来降低成本。
李飞飞(花名飞刀),阿里巴巴数据库事业部高级研究员Running the Gamut: Challenges from Alibaba's Ecosystem for Database Systems
数据库事业部承载着阿里巴巴生态系统所有的在线数据处理分析以及数据库服务,是业务蓬勃发展的技术基石,为淘宝、天猫、飞猪、聚划算、新零售、1688、B2B、AE、淘宝海外、阿里云等业务群提供稳定、高效、安全、低成本的数据库产品和服务。
这里有世界一流的数据库应用场景,直面天猫双十一洪峰流量。这里有数据库领域最前沿的技术和探索,例如异地多活、强一致分布式数据库、新硬件、自治数据库、结构化与非结构化数据融合处理。这里有一流的数据库团队,集合了一批优秀的数据库内核开发和数据库管理人才。这里有一流的产品,为开源社区提供了大量的贡献,推动开源数据库的普及。同时,以阿里场景为依托,我们为阿里云客户提供丰富的数据库产品和服务,全面覆盖电商、物流、安防、交通、健康、出行、气象等广大行业并提供核心服务。我们在数据库事务处理引擎、在线分析引擎、分布式数据库、FPGA/GPU 硬件加速、智能数据库、多模多态数据库、数据库安全、大规模数据处理与分析方向均处于业界领先位置。
Demai Ni(花名德迈),阿里巴巴数据库事业部资深技术专家X-DB:the Next Generation Globally-Distributed Database System
X-DB 是支持阿里巴巴业务的事务数据库,拥有十万+实例,涵盖淘宝、天猫、AliExpress 等核心业务,以及最新融入的 Lazada,高德、饿了么、优酷/土豆网等互联网+业务。作为世界体量最大的 OLTP 系统之一,X-DB 通过分层存储提供高吞吐量,计算和存储分离赋予高弹性能力,并且通过 Paxos Protocol 保证高可用,以及基于盘古文件系统的数据高可靠。同时,X-DB 利用最新的硬件技术(如 NVM, SSD, FPGA)达到高效储存和计算稳定。初期 X-DB 在阿里巴巴业务的驱动下和挑战中完成多项关键技术:水平扩展,跨物理域高可用,百倍的弹性;现在 X-DB 的技术革新在为阿里巴巴创造新业务。X-DB 基于人工智能的技术和全球部署能力,即为阿里基础设施服务,也将在云上为万亿用户服务。X-DB runs everywhere all the time!
李瑞萍,阿里巴巴数据库事业部资深技术专家AnalyticDB: Challenges and Opportunities of Real-Time Data Warehousing
AnalyticDB 是阿里云上的 PB 级实时数据仓库,支撑着阿里集团内的电商、广告、蚂蚁、菜鸟、文娱等众多在线数据分析业务,以及传统的大中型企业,政府机构,众多的互联网创新公司的核心分析能力。AnalyticDB 采用分层 (接入层,计算层,存储层 ... ) 解耦架构,支持各层独立扩展,将分析计算、数据写入、索引构建等分离为不同节点。各种类型节点采用多活运行模式,在整体架构上实现了弹性扩展和高可用。AnalyticDB 引进了智能 SQL 优化器,MPP+DAG 的融合分析引擎,支持行列混合存储,智能构建多维度索引以及 GPU 硬件加速等技术,同时融入了文本、图片、人脸等非结构化数据分析支持,大幅扩展技术边界和业务边界。AnalyticDB 能够支持 1000 以上的计算节点, 10PB 以上的数据, 毫秒级响应,100K QPS、每秒千万级记录写入。
伴随着这些年在线分析业务的发展,AnalyticDB 在时效性、在线化、复杂度、可用性和成本上不断创新发展,做了大量的难点突破和技术创新。通过将数据分析在线化、实时化,帮助用户在经营分析、运营优化,城市大脑等场景中充分发挥数据价值,AnalyticDB 已经成长为极具行业竞争力的产品。
赵晓雪,阿里巴巴基础设施事业群研究员Intelligent Infrastructure Operation
阿里巴巴的基础设施正在经历着翻天覆地的大规模化的快速变革。我们的目标是在这样大规模化的发展中通过自动化、数字化和智能化的技术始终保持基础设施运维的高效、稳定和低成本。在这次的活动中,我们分享了三个主要的自动化运维平台,第一个是运营支撑与决策平台,致力于打造从需求到供应链再到安装交付的整条自动化链路;第二个是数据中心运维平台,紧密结合资产、器件、仪器等多项实时监控,数据中心现场安防和作业流程自动化;第三个是天基系统,保证了近百万台服务器的基础软件,固件快速安全自动大规模部署和升级。
在每一个平台系统中,我们都加入了智能运维的功能。例如,根据产品特性,周期和历史数据等信息,采用数据挖掘、机器学习、统计分析、数学模型等多种方法,阿里云计算产品对于基础设施的需求预测准确率可达80%以上。再例如,通过神经网络和优化模型,我们的自建数据中心的能耗效率提高了 20% 以上。我们期待能够在不久的将来,通过技术创造高效,智能的无人值守数据中心。
张铭,阿里巴巴网络研发事业部研究员自动驾驶网络
阿里巴巴拥有着包括电商、云计算、互联网金融等一系列高速发展,且内容极其丰富的互联网业务。为了向全球的几十亿用户提供优质、可靠的服务,阿里在世界各地建造数据中心和 PoP 点,并通过遍布全球的网络将用户和这些数据中心连接起来。在这次活动中,我们分享了如何通过构建自动驾驶网络来保障阿里网络在高速发展下的稳定性。与传统的网络运维方式所不同,自动驾驶网络具备灵敏的感知能力,高度的自动化能力,以及全局的优化决策能力。不仅如此,自动驾驶网络还具备精准的预测能力和强大的学习能力。在过去几年中,我们从无到有的打造了阿里的自动驾驶网络,实现了从人工运维到智能化运维的跨越。
李舒,阿里巴巴服务器研发事业部资深专家阿里巴巴存储基础设施的软硬件一体化设计
服务器存储团队全力打造软硬件一体的阿里巴巴底层统一存储平台以向上支撑盘古分布式文件系统和集团业务。在过去3 - 4年的不断努力中,已实现硬件白盒化,并建立全球领先的 Alibaba Open Channel SSD 系统,发布了Alibaba Open Channel 标准,并成功吸纳 Intel、三星、美光、紫光、海力士、西数、宝存、CnexLab、东芝等国际厂商加入Alibaba Open Channel 联合研发、验证、产品化,现已实现在阿里巴巴基础设施的部署。本地存储引擎 FusionEngine 向上支撑盘古分布式系统,向下衔接Alibaba Open Channel SSD,实现了从存储介质颗粒到上层业务应用的全栈白盒化与一体优化迭代,打造了高性能、高稳定、低成本的阿里巴巴底层统一存储平台,以之全力支撑阿里业务,并与各业务一起开拓新商业,以全栈优化的深入技术能力,创新并迭代具有国际竞争力和影响力的业务产品。
YU, Minggang,阿里巴巴数据库事业部资深技术专家Heterogeneous Computing: Unified Data Analytics
随着数据分析特别是 ML 智能分析越来越庞杂,目前零散分离的工具链如 SciPy stack 早已无法满足数据科学家或领域专家在容量、场景多样性和效率持续增长的要求。分析平台需要能够统一分析异构数据深入挖掘关联数据价值,并充分发挥各种异构硬件(如 GPU/FPGA/ASIC/Optane/RDMA)的计算和传输效能。本次分享介绍了阿里巴巴 PB 级高并发实时数据分析平台 ADS 及其技术规划,目标是利用多种新硬件加速多模态数据统一分析(包括 OLAP、统计和机器学习)和大规模数据呈现(Backend Rendering)。
张伟丰,阿里巴巴服务器研发事业部研究员Advance Heterogeneous Computing for Performant AI Applications
随着摩尔定律的枯竭,传统单一的计算机结构已经不能满足人工智能/机器学习应用所需求的强大计算力。相比之下,异构计算架构针对机器学习应用的各种各样特性能够充分发挥不同架构的计算力,因而成为挖掘未来计算潜力的关键技术。在这次分享中,我们介绍了计算架构发展趋势和机会,并探讨如何促进 FPGA,ASIC(如人工智能芯片)和非冯诺伊曼架构的发展和演进,从而实现人工智能/机器学习应用的最大性能。
最后为大家介绍大会中出席分享的各位 Tech Leader。
基础设施建设的未来是什么样的,期待与你一起去定义。
网友评论