在万众瞩目之下,DeepSeek公司选择在“五一”假期前夕,向科技界投掷了一枚意想不到的技术“震撼弹”。4月30日,DeepSeek悄然在Hugging Face平台上开源了其最新研发的大语言模型——DeepSeek-Prover-V2-671B,一个专为数学定理证明任务设计的超级大脑。
DeepSeek-Prover-V2-671B,这个名字本身就透露着不凡。它基于DeepSeek-V3架构,拥有惊人的6710亿参数,采用了先进的MoE(混合专家)模式,构建了61层Transformer层,以及7168维的隐藏层。这样的配置,无疑使其在处理复杂数学证明问题时拥有了前所未有的能力。
更令人瞩目的是,该模型采用了高效的safetensors文件格式,并支持BF16、FP8、F32等多种计算精度,这不仅极大地提升了模型的训练和部署速度,还有效节约了资源。据分析,该模型被巧妙地分割为163个分片,每个分片约4.3GB,这一细节再次证明了其庞大的规模。
DeepSeek-Prover-V2-671B的出现,是对DeepSeek团队在数学AI领域持续深耕的又一力证。自3月发布V3-0324版本以来,该版本因其6850亿参数的MoE架构升级和显著增强的代码能力,已被业内视为未来R2大模型的基础。而此次的Prover版本,更是将焦点对准了形式化数学证明这一极具挑战性的领域。
DeepSeek-Prover系列模型,是DeepSeek团队通过大规模合成数据训练,并结合强化学习(RL)与蒙特卡洛树搜索(MCTS)等优化技术精心打造的。这一创新性的训练框架和高效的推理策略,不仅在形式化定理证明领域树立了新的标杆,还为AI在严谨数学推理中的应用开辟了新的道路。
新模型的特点不言而喻:庞大的参数量、先进的架构、专为数学定理证明的优化、支持超长上下文以及高效的FP8量化技术,这些都使其在处理复杂数学问题时游刃有余。据测评显示,在高中数学题测试中,该模型的成功率从50%提升到了63.5%,这一显著的进步无疑为AI在数学领域的应用注入了新的活力。
DeepSeek的创始人梁文锋曾表示,中国应逐步成为创新的贡献者。他领导下的AI团队,一直保持着与国际巨头同步的产品迭代节奏,从V2.5版本到V3基础架构,再到V3-0324版本的升级,每一次都带来了重大的技术突破。而此次DeepSeek-Prover-V2-671B的开源,是否预示着DeepSeek R2大模型的即将问世?这一疑问在社交平台上引发了广泛的讨论和期待。
网友们纷纷表示:“R2指日可待……”、“中国的AI初创公司永远不会让人失望!他们真的在改变整个游戏规则!”这些声音不仅表达了对DeepSeek团队的赞赏和期待,也反映了中国AI技术在全球舞台上日益崛起的现实。
DeepSeek-Prover-V2-671B的开源,无疑是中国AI技术发展的又一里程碑。它不仅展示了DeepSeek团队在数学AI领域的深厚实力,也为中国乃至全球的AI研究提供了新的灵感和方向。