【ITBEAR】9月15日消息,在AI大模型时代,算力成本已成为业界关注的焦点。百度系统架构师、百度智能云AI计算部负责人王雁鹏近日分享了关于如何有效降低万卡集群算力开支的见解,提出了五大解决方案。
王雁鹏指出,随着深度学习技术的不断发展,GPU集群规模已达万卡级别,这使得大模型时代的算力成本远超人力成本。为了应对这一挑战,他提出了包括搭载RDMA网络、采用自动并行策略、确保训练稳定性、动态分配算力以及实现多芯异构混训在内的五大策略。
据ITBEAR了解,RDMA网络的应用在AI集群中显得尤为重要。与传统的IB网络相比,RDMA网络更适合AI集群的需求,它优先考虑吞吐量而非延迟,从而有效提升了AI集群的带宽有效率和模型性能。
此外,王雁鹏还强调了自动并行策略在AI集群演进中的重要性。通过采用“边计算边通信”的方式和显存优化的切分策略,百度成功提高了模型性能,甚至超越了开源模型和人工调优模型的效果。
在谈到训练稳定性时,王雁鹏表示,稳定不间断的任务运行对于AI训练至关重要。百度通过一系列技术手段,如Hang检测、慢节点检测等,确保了文心一言大模型的有效训练时长比例超过99%。
针对资源利用率问题,王雁鹏提出了训练一体的解决方案。通过动态分配算力流量和资源,百度百舸异构计算平台成功将资源利用率从50%提升至90%,从而有效应对了主流模型训练中的劣势。
最后,王雁鹏探讨了多芯异构混训在解决算力卡脖子问题中的关键作用。他提出,通过搭建跨芯沟通库和采用Accelerator抽象设计方法,百度实现了在千卡和万卡规模下性能损失的最小化。
展望未来,王雁鹏透露百度将继续在三个核心技术上寻求突破:实现更高效的拓扑和拥塞控制、扩大跨地域RDMA网络范围以及进一步提升训练故障恢复速度。这些技术突破将为百度在未来十万卡级别的AI集群竞争中占据有利地位提供有力支持。
关键词:#百度# #AI大模型# #算力成本# #RDMA网络# #多芯异构混训#