ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

正阳恒卓高凯:打造高效可靠智算中心,AI Infra建设需系统性突破

时间:2025-01-06 17:03:20来源:砍柴网编辑:快讯团队

在近期举办的一场聚焦于人工智能产业应用的盛会上,北京正阳恒卓科技有限公司的首席科学家高凯,针对当前AI基础设施建设中的关键挑战,分享了一系列深刻的见解与公司的技术创新成果。

高凯强调,尽管客户普遍期望AI任务能够充分利用智算中心的硬件资源,实现性能的大幅提升,但在实际操作中,即便是通过扩大集群规模或升级硬件,分布式AI任务的性能提升也并非总能如愿以偿地实现线性增长。他指出,这主要是由于大规模分布式AI任务对资源的需求极为庞大,容易导致资源碎片化,进而闲置,并对调度系统的性能提出了更高要求。并行方法和通信顺序也是影响分布式AI任务效率的关键因素。

针对这些挑战,高凯提出了解决方案:大规模分布式AI基础设施需具备高效的系统容错能力,并采用丰富的并行策略。他提到,目前国内外的一些领先企业已经支持三维并行策略,甚至正在探索五维并行策略,以进一步提升AI任务的执行效率。

在智算中心的建设过程中,高凯还指出,客户往往期望AI大模型能够稳定运行,但现实情况却并非如此。AI系统中的各个组件都可能出现故障,导致AI任务中断或失败。他分析道,AI任务依赖于专用硬件,与传统计算集群在能源、产热、工作条件等方面存在差异,主流AI并行框架采用同步方式运行,存在单点故障问题,传统云平台的容错能力并不适用于AI系统,导致故障原因多样且难以定位。

高凯强调,大规模分布式AI系统的容错能力是AI系统稳定运行的基础,已成为全球AI大厂竞相关注的焦点。结合正阳恒卓在为国家超算中心、大模型公司等企业建设大规模智算中心方面的丰富经验,他认为,建设高效可靠的AI基础设施是一个系统工程,需要从硬件到软件进行全面系统性开发,同时,可靠性和高效性的技术应被封装,以便尽可能对用户透明。

高凯将AI基础设施的构建分为四个层级:智算中心建设、基础服务运营、AI开发部署框架以及AI应用开发。他指出,与大型厂商能够实现从底层硬件到上层AI应用的全栈自主研发不同,大部分小型企业往往缺乏这样的经济能力和人才储备。因此,为了推动人工智能产业应用的发展,提供高效可靠的AI基础设施已成为智算中心未来必须具备的基本能力和发展趋势。

据高凯介绍,为了让更多的人工智能产业应用企业受益,正阳恒卓正致力于领导并构建一个开放的、面向高效可靠智算中心的AI基础设施基础框架。这个开放基础框架中的功能模块基于开放标准进行设计,旨在吸引更多相关行业的企业和开发者共同组建技术生态,使用户的模型开发、部署、应用能够在不同的算力环境中实现无缝迁移。同时,AI基础设施企业可以通过技术创新提供高效性和可靠性的增值服务。

作为一家成立于2015年4月的公司,正阳恒卓已服务超300家企业客户,是英伟达认证的精英级合作伙伴,并连续两年成为NVIDIA Networking NPN业绩的佼佼者。

更多热门内容