近日,DeepSeek-v3模型的出现引发了人工智能领域的广泛关注。这一由中国厂商推出的模型,其性能接近GPT-4和Claude-3.5-Sonnet等闭源模型,但训练成本却仅为这些同性能模型的十分之一。这一突破性进展,不仅让人们看到了中国大模型在商业化道路上的新希望,也启示了模型效率提升的重要性。
据了解,DeepSeek-v3模型仅使用了2048张H800显卡,在不到两个月的时间内完成了训练,计算预算不到600万美元。相比之下,Llama 3.1 405B模型则使用了1.6万张H100显卡,训练时间长达80天。这一对比,让不少人对算力需求产生了新的疑问,是否算力被高估了?
然而,事实并非如此。DeepSeek-v3的训练成本之所以如此低,部分原因在于其作为后发模型,能够避开前人走过的弯路,站在巨人的肩膀上前进。算法进步和算力通缩等因素也使得模型训练成本随着时间的推移而不断下降。但值得注意的是,DeepSeek-v3的训练成本并不包括其前期数据生成和模型架构探索阶段所消耗的算力。
尽管如此,DeepSeek-v3的出现仍然具有重要意义。它证明了中国厂商在探索模型效率极限方面的能力,为中国大模型的商业化提供了新的可能性。在过去,中国大模型在训练阶段面临技术封锁,突破性研究往往受到预算和资源的限制。然而,随着模型走向应用阶段,这一局面有望发生改变。
在推理阶段,由于标准多样且复杂,技术封锁的难度较大。中国厂商可以通过工程创新的方式,探索更高效的算力优化方式,从而在好、快、便宜和可靠性之间找到最优解。这一趋势已经在国内得到了体现,不少企业正在积极投入算力优化和模型效率提升的研究。
与此同时,科技巨头们在算力上的投入也在不断增加。据国外网站LessWrong估算,明年科技巨头的算力规模将继续大幅增长。国内同样延续这一趋势,字节跳动等企业在AI算力采购上的投入也在不断增加。这些投入不仅为新模型的训练提供了更多算力支持,也推动了AI应用的繁荣和发展。
随着AI应用的逐渐落地,模型效率将成为打通中国大模型产业商业循环的关键。美国押注模型能力提升,而中国则追求模型效率的极限。这一差异使得中美两国在人工智能领域的发展路径有所不同,但都为全球人工智能产业的发展做出了重要贡献。
回顾过去十年,中美两国在互联网领域的发展也呈现出了不同的趋势。美国科技业全面拥抱SaaS,而中国在消费互联网上展现出了非凡的生命力。如今,在人工智能领域,中美两国也将继续以不同的方式迈向未来。中国大模型在商业化道路上的探索,将为我们带来更多启示和可能。