在科技日新月异的今天,智能算力领域正迎来一场前所未有的变革。一个显著的标志便是“万卡集群”的兴起,这一概念迅速成为了科技巨头和运营商们竞相追逐的目标。
所谓“万卡集群”,是指由超过一万张高性能加速卡(包括GPU、TPU等)组成的计算系统,专门用于加速人工智能模型的训练和推理。这一庞大数量的加速卡协同工作,能够显著提升计算效率,从而在大模型竞赛中占据优势。
海外科技巨头早已在这一领域发力。以OpenAI为例,GPT-4的训练使用了2.5万张英伟达A100 GPU,耗时约100天。而即将问世的GPT-5,预计需要部署20万至30万个H100 GPU,训练时间也将进一步延长。谷歌、meta等巨头同样不甘示弱,纷纷推出了自己的万卡集群,甚至开始规划更大规模的算力基础设施。
在中国,智能算力建设同样如火如荼。据《智算产业发展研究报告(2024)》显示,中国已建成十余个超万卡集群的智算中心。中国移动、联通、电信三大运营商均加速推进万卡集群智算中心的建设,其中中国移动在呼和浩特、哈尔滨、贵阳的智算中心已经投产运行,总规模近6万张GPU卡。小米、字节等科技巨头也积极布局,小米更是计划建设一座GPU万卡集群。
随着科技巨头和运营商的纷纷入场,国产AI芯片公司也迎来了前所未有的发展机遇。华为昇腾、寒武纪、摩尔线程等国产AI芯片厂商纷纷推出自己的解决方案,积极参与万卡集群的建设。例如,寒武纪的思元系列云端智能加速卡已在中国移动多个省份的AI业务中得到应用,而摩尔线程则推出了以国产全功能GPU为底座的大规模算力集群。
然而,万卡集群的建设并非易事。如何保证集群的稳定性、高效性和兼容性,如何充分挖掘其应用价值,都是亟待解决的问题。智算中心的建设和运营也面临着诸多挑战。由于投资、建设、运营通常由不同主体负责,经常出现建设与运营脱节的情况,导致机架利用率不尽人意。同时,算力定价标准的不统一也限制了市场的接纳程度。
尽管如此,万卡集群仍然被视为智能算力时代的重要里程碑。它不仅标志着我国在人工智能领域的算力建设迈上了新的台阶,也预示着未来更加激烈的竞争和更大的发展机遇。随着技术的不断进步和市场的日益成熟,相信万卡集群将会发挥更加重要的作用,推动人工智能技术的快速发展。
在这场大模型竞赛中,科技巨头和运营商们正通过布局万卡集群来抢占先机。然而,如何高质量地完成建设任务,如何充分发挥万卡集群的应用价值,仍然是他们需要面对的重要课题。只有不断克服挑战,持续优化和创新,才能在智能算力时代中立于不败之地。