近年来,随着数字化转型的加速,互联网大厂对服务器的需求日益多样化,对算力提出了更高要求。2023年初,一家知名互联网企业向浪潮信息抛出了一个难题:如何在不同业务场景中快速部署适合各自需求的服务器,尤其是在处理器平台的选择上。
传统上,通用服务器系统往往围绕某一特定处理器平台进行设计,难以满足当前客户对多元算力平台的迫切需求。例如,轻量级容器场景对功耗和密度有较高要求,而高性能计算场景则更倾向于具有强大并行处理能力的处理器平台。这种“既要、也要”的局面,对通用服务器架构提出了前所未有的挑战。
与此同时,人工智能的快速发展也对通用服务器提出了新的要求。大模型训练和推理所需的数据存储,以及通用服务器自身智能加速能力的提升,使得通用服务器逐渐具备运行大模型推理服务的能力。长远来看,智算集群的快速演进将推动数据中心的重构,引领通用服务器向高密度部署发展。
面对这两个新变量,通用服务器产业站在了新的变革起点上。为了应对这一挑战,浪潮信息与提出需求的互联网企业共同探索,最终提出了一个创新的解耦思路。这一思路借鉴了AI服务器领域OAM标准的成功经验,旨在通过解耦和标准化模组方式,实现不同处理器平台在服务器中的灵活切换。
经过产业链多方的共同努力,这一解耦思路得以落实。开放标准组织OCTC发起了开放算力模组(OCM)规范,建立了标准化算力模组,实现了“一机多芯”。根据规范,未来一台服务器中可以随意切换英特尔、AMD、ARM等不同CPU平台,甚至可以同时支持。这一标准打破了过去几十年通用服务器的设计惯例,为国内服务器产业带来了新的发展机遇。
浪潮信息也完成了首个符合OCM规范的产品设计。据悉,首款基于OCM规范的元脑服务器NF3290G8已进入送测阶段,预计将在2025年第一季度进行批量部署。这一产品的推出,标志着OCM标准在产业界的落地应用,为通用服务器产业带来了新的变革。
OCM标准的出台并非一帆风顺。在标准制定过程中,产业链各方有着不同的需求和利益诉求。例如,互联网大厂更关注领先芯片平台在标准中的落实,而芯片厂商则更关注平台的兼容性和各自优势的展现。最终,标准组通过多方协商和评估,将这些算力平台都纳入进来,实现了标准化和兼容性。
在产品化过程中,业界也关注到了三大重要趋势:解耦化、产品智能化管理中大模型技术的引入,以及硬件开放、软件开源的潮流。解耦化代表了服务器系统架构的未来演进方向,通过标准化模组和一致性供电、散热调控,可以实现极致的能效比。产品智能化管理则利用大模型技术对海量数据进行学习训练,实现故障预警和减少非计划停机时间。硬件开放和软件开源则促进了技术积累和汇聚,为产业链发展提供了强大支撑。
通用服务器功耗攀升带来的散热问题也是业界关注的焦点。工程师们通过散热风道分离等方法,提高了散热效率,对数据中心的PUE(电源使用效率)至关重要。未来,随着通用服务器功耗的进一步攀升,风冷可能将走向尽头,OCM标准可能将向液冷方向演进。
OCM标准的采用也大幅降低了服务器的研发成本。通过解耦和模块化设计,减少了重复性的开发工作,加快了芯片从研发到落地的速度。同时,解耦和模块化过程中提高了可靠性标准,包括信号、电源、结构、系统稳定性等要求的提高,并未降低服务器的可靠性。
展望未来,智算将继续引领整个产业的演进。随着大模型对算力需求的不断增加,AI服务器市场将持续增长,并推动数据中心基础设施的变革。在这一大背景下,通用服务器也将面临更大的变革和挑战。OCM标准作为实现数据中心服务器高密部署的起点,将推动算力产业面向未来的需求进行演进和升级。