DeepSeek开源6710亿参数数学证明大模型，R2大模型还远吗？-信息流-小熊财经

在万众瞩目之下，DeepSeek公司选择在“五一”假期前夕，向科技界投掷了一枚意想不到的技术“震撼弹”。4月30日，DeepSeek悄然在Hugging Face平台上开源了其最新研发的大语言模型——DeepSeek-Prover-V2-671B，一个专为数学定理证明任务设计的超级大脑。

DeepSeek-Prover-V2-671B，这个名字本身就透露着不凡。它基于DeepSeek-V3架构，拥有惊人的6710亿参数，采用了先进的MoE（混合专家）模式，构建了61层Transformer层，以及7168维的隐藏层。这样的配置，无疑使其在处理复杂数学证明问题时拥有了前所未有的能力。

更令人瞩目的是，该模型采用了高效的safetensors文件格式，并支持BF16、FP8、F32等多种计算精度，这不仅极大地提升了模型的训练和部署速度，还有效节约了资源。据分析，该模型被巧妙地分割为163个分片，每个分片约4.3GB，这一细节再次证明了其庞大的规模。

DeepSeek-Prover-V2-671B的出现，是对DeepSeek团队在数学AI领域持续深耕的又一力证。自3月发布V3-0324版本以来，该版本因其6850亿参数的MoE架构升级和显著增强的代码能力，已被业内视为未来R2大模型的基础。而此次的Prover版本，更是将焦点对准了形式化数学证明这一极具挑战性的领域。

DeepSeek-Prover系列模型，是DeepSeek团队通过大规模合成数据训练，并结合强化学习（RL）与蒙特卡洛树搜索（MCTS）等优化技术精心打造的。这一创新性的训练框架和高效的推理策略，不仅在形式化定理证明领域树立了新的标杆，还为AI在严谨数学推理中的应用开辟了新的道路。

新模型的特点不言而喻：庞大的参数量、先进的架构、专为数学定理证明的优化、支持超长上下文以及高效的FP8量化技术，这些都使其在处理复杂数学问题时游刃有余。据测评显示，在高中数学题测试中，该模型的成功率从50%提升到了63.5%，这一显著的进步无疑为AI在数学领域的应用注入了新的活力。

DeepSeek的创始人梁文锋曾表示，中国应逐步成为创新的贡献者。他领导下的AI团队，一直保持着与国际巨头同步的产品迭代节奏，从V2.5版本到V3基础架构，再到V3-0324版本的升级，每一次都带来了重大的技术突破。而此次DeepSeek-Prover-V2-671B的开源，是否预示着DeepSeek R2大模型的即将问世？这一疑问在社交平台上引发了广泛的讨论和期待。

网友们纷纷表示：“R2指日可待……”、“中国的AI初创公司永远不会让人失望！他们真的在改变整个游戏规则！”这些声音不仅表达了对DeepSeek团队的赞赏和期待，也反映了中国AI技术在全球舞台上日益崛起的现实。

DeepSeek-Prover-V2-671B的开源，无疑是中国AI技术发展的又一里程碑。它不仅展示了DeepSeek团队在数学AI领域的深厚实力，也为中国乃至全球的AI研究提供了新的灵感和方向。