关于我们 > 新闻市场 > 芯事访谈
阿里巴巴张瓅玶:计算技术加速革新,引领数据中心架构持续演进
2024/03/19

 

本期《芯事》人物

张瓅玶 

阿里巴巴技术风险与效能部负责人

 

 

本期芯事访谈嘉宾为阿里巴巴技术风险与效能部负责人张瓅玶。技术风险与效能部承担阿里集团内部业务的基础技术平台及研发基础设施建设,致力于通过容器技术管理调度CPU、存储、大数据等计算资源,满足业务发展、研发设计所需安全稳定高效的算力需求。张瓅玶将从“计算需求驱动数据中心的三次变革“、“围绕数据中心阿里在做什么”、“异构时代倚天710扮演关键角色”、“未来变革还在继续-AI加速重塑软硬件格局“等几个篇章分享其真知灼见。

 

数据中心算力的演变与驱动力

 

在过去的十年中,数据中心的算力发展经历了显著的演变,这一变化主要受到两大因素的推动:移动互联网兴起带来的用户数据爆炸,以及AI技术的引入和大规模应用。这一时期,我们见证了从传统的计算需求到以数据为中心的计算需求的转变。

 

随着移动互联网的迅速发展,类似于淘宝这样的头部应用的用户数量开始从百万级迅速增长到亿级,这种规模的增长对数据中心的算力提出了前所未有的挑战。紧随用户增长而来的是海量的用户数据的出现。通过这些数据,企业可以为消费者提供更加精准和个性化的服务,比如个性化推荐。伴随着大数据时代的来临,也意味着对数据存储、处理和分析的需求急剧增加。数据的增长速度远远超过了用户数量的增长,从而导致数据中心对算力的需求呈现指数级增长。

 

AI的引入和大规模应用成为了过去十年数据中心发展的又一重要里程碑。随着移动互联网应用对个性化服务的需求越来越高,比如基于AI技术的内容定制、个性化广告推送等,又增加了新的计算资源需求。AI模型的训练和推理需要巨大的算力支持,特别是近年来大型语言模型和深度学习模型的兴起,对计算资源的需求更是达到了前所未有的水平。这种需求的增长速度远远超过了传统计算任务的需求,可能是过去的十倍甚至百倍。

 

 

在这两大因素推动下,数据中心的发展不仅仅是硬件规模的扩张,更重要的是计算技术的革新。云计算的兴起、大数据技术的发展、AI的广泛应用,这些都深刻地改变了数据中心的运行方式和计算模式。数据中心从仅仅是存储和计算的设施,变成了智能处理和分析数据的强大引擎。在这种背景下,大型互联网公司如阿里巴巴在数据中心的建设和管理上做出了重大调整。阿里巴巴从最初的几万台服务器迅速扩展到几十万台。这种规模的扩张不仅仅是数量上的增加,更体现在计算技术的进步。

 

计算架构的变革和挑战

 

随着数据中心的不断发展,计算架构也开始不断演进。最初,服务器架构以CPU为核心,主要依靠其处理能力来支撑应用需求。这种以单一设备为中心的架构并非始于互联网时代,而是继承自早期计算时代,当时计算资源主要依靠单个设备(如小型机和大型机)的强大能力,采用scale-up架构。

 

但随着互联网的兴起和应用需求的爆炸性增长,这种以单一强大设备为中心的架构逐渐显得不够灵活和高效。互联网的发展推动了分布式计算架构的兴起。这种架构通过将大量廉价、可复制的商用CPU服务器组合起来,形成庞大的集群,以处理海量数据和复杂计算任务。这代表了基础系统技术领域的一次重大突破,从而使得能够通过大规模集群以较低成本处理日益增长的数据和计算需求成为可能。

 

然而,大数据的出现对传统的横向扩展服务器架构又提出了新的挑战。大数据的特点在于涉及的数据量巨大且计算密度高。为了处理这些数据,需要大量的存储空间和更高的计算能力。这种需求催生了计算存储分离的架构模式,其中大型存储集群用于处理海量数据,而灵活且可扩展的计算资源用于执行复杂的数据处理任务。

 

这种架构的出现,标志着从集中式计算向分布式计算的转变。在大数据时代,数据中心内部的CPU利用率通常很低。为了提高效率,很多公司开始采用混合部署技术,将在线计算和大数据处理结合起来,以提高CPU的使用效率。据阿里巴巴技术风险与效能部负责人张瓅玶介绍,目前阿里巴巴CPU利用率已达业界领先水平,相比过去实现大幅提升,从而降低了成本,提高了经济效益。

 

 

由于摩尔定律的失效,CPU的计算能力增长已经放缓,需要采用专用的计算设备来处理这些高密度的计算任务,包括并行计算以及其他类型的专用硬件,如TPU等,都在特定的场景下展现出优异的性能。这些新型硬件的出现,进一步推动了计算架构向更加多样化和专用化的方向发展,反过来计算架构的发展也反映了技术领域的不断创新和进步。 

 

倚天710成为一种选择

 

除了上面提到的定制化架构的兴起,张瓅玶也提到,随着大数据时代的到来,面对特定工作负载需求的增长,计算架构中的CPU从传统的x86处理器向基于Arm的处理器的转变已经越来越明显。

 

Arm架构以其低功耗和高效设计著称,与基于复杂指令集计算(CISC)架构的x86 CPU不同,Arm CPU能更快、更有效地执行计算任务。近年来,AI大模型的快速发展在科技产业中引起重视,面临着内存带宽等技术挑战,也要求采用新的系统架构和提升内存一致性。灵活的系统架构和强大的生态系统对于支持AI大模型的演进至关重要。

 

在此背景下,Arm架构的处理器,因其低功耗优势,已成为数据中心和高性能计算(HPC)领域的节能解决方案。领先的云服务提供商如微软Azure、亚马逊AWS、谷歌和阿里巴巴已开始在其云计算中采用基于Arm的处理器。不管是为了降低成本还是为了满足特殊需求,各大云计算巨头都开始定制芯片,以应对不断增长的数据处理需求。

 

平头哥自研芯片倚天710是专为云设计的第一款CPU芯片,采用Armv9架构,拥有128核心、2.75GHz主频。倚天710在性能和能效比上实现了双重突破,性能超出行业标杆20%,能效比提高50%以上。在2022年云栖大会上,阿里云宣布其自研 CPU 倚天 710云实例已大规模应用,这也是中国首个云上大规模应用的自研 CPU。

 

倚天710云实例针对云场景研发,同时兼顾了性能与易用性。经过业务验证,以云的形式服务阿里巴巴核心业务和多家知名互联网科技公司,并覆盖电商、生命科学、交通物流及游戏等领域。

 

张瓅玶介绍,倚天710在性能、应用情况、服务器运行稳定性和可靠性方面表现出色,在高CPU利用率场景下表现格外优越,尤其是在128个物理核的特性下,能够减少核间干扰,提高性能。搭载倚天710的服务器已在阿里巴巴在线规模应用中运行两年多,广泛应用于各种业务场景,如数据库存储、在线电商计算和离线大数据处理等。

 

 

张瓅玶对倚天710在软件生态、成本优势、单核性能等方面的未来发展持乐观态度,充分肯定其在性价比和性能方面相较于其他竞品的竞争力。2023年,阿里巴巴技术风险与效能部管理的新增服务器中超过一半采用Arm架构也是对倚天710优异性能表现的一种肯定。

 

从计算需求出发,聚焦解决未来技术瓶颈

 

未来,AI的发展将导致数据中心架构变得更加复杂,随着个人化AI模型的需求增加,对算力的需求将达到前所未有的水平,这将推动数据中心架构的持续演进和定制化。

 

除了计算架构越来越复杂,我们看到连接方案也开始定制化设计。例如,NVLink的出现就是为了解决PCIe和以太网无法满足连接速度需求的问题。随着算力需求的进一步增加,可能会出现更多此类定制连接方案。与此同时,传统架构也不能满足对内存访问速度的需求,促使了新型技术演进,以满足更高性能需求。CXL(Compute Express Link)架构的出现就是对传统内存访问模式的一种挑战。随着特定领域架构(DSA)的出现,对内存访问速度的需求进一步提升。这导致了传统的内存和存储方案无法满足新的性能要求,促使了更复杂的技术,如3D堆叠技术的发展。这些技术的发展意味着可以将内存直接集成到CPU或者其他处理单元中,这一举措突破了多年来沿用的设计模式。

 

同时,越来越复杂的计算架构,也带来了几个不同的关键影响:

 

首先,随着越来越多特定功能计算芯片的涌现,软件开发者需要为这些芯片编写专门的程序,这比以往仅为CPU编写软件要复杂得多。在AI时代,除了传统的CPU,开发者还需要为并行计算等多种处理器编写程序,以实现复杂的计算任务。

 

此外,对于云计算和集群管理而言,这种变化带来了极大的挑战。云计算基于将数据中心视为单一计算机的理念,这要求集群具有均匀、可调度和可管理的特性。然而,随着更多垂直化、紧耦合的架构的出现,弹性和水平扩展能力作为云计算的生命线,正在面临前所未有的挑战。

 

最后,硬件和软件架构的变化不仅会影响传统的计算模式,还可能对现有的硬件制造商产生冲击。这种变化不仅影响了像Intel和AMD这样的传统制造商,且整个以CPU水平扩展为基础的计算架构相关的通信、存储等硬件制造商都会受此冲击。

 

 

一言以蔽之,未来的计算架构将变得更加复杂,带动硬件和软件技术都将出现一轮动态变化,从而出现更多样化的设备和芯片,以及针对不同领域的垂直整合方案。在张瓅玶看来,这种走向更复杂架构的趋势虽然有出于为满足日益增长的计算需求的无奈,但也代表了行业在向着更高效、更专业的方向发展。