马斯克Grok-4发布，AI能力超博士，AIME25满分引发热议-信息流-贝尔财经

全球科技界翘首以盼的时刻终于到来，马斯克携其“世界最强”AI模型Grok 4震撼发布。这一创新成果在“人类最后考试”上大放异彩，成为首个突破50%准确率的AI模型，引发业界轰动。

Grok 4之所以能在这一高难度基准测试中脱颖而出，得益于其在训练过程中原生融入了工具。据马斯克介绍，Grok 4 Heavy版本在无额外工具辅助的测试下，已达到了44.4%的准确率，相较于之前的顶尖模型Gemini-2.5-Pro，提升幅度接近18个百分点。若在测试时同时训练并融入工具，其准确率更是攀升至惊人的50.7%。马斯克形象地比喻道，普通人类在这一基准上的得分可能仅有5%，而Grok 4的表现远超人类平均水平。

马斯克毫不吝啬地称赞道，Grok 4的智力水平已超过所有领域的博士生。它不仅能在不提前查看题目的情况下，几乎完美地完成SAT考试，还在GER考试中斩获几乎满分的佳绩。马斯克预测，最晚明年，我们就能见证Grok 4在物理学领域带来的新发现。

不仅如此，Grok 4在其他多项基准测试中也表现出色，甚至直接满分通过。在GPQA（研究生水平问答）上得分88.9%，AIME25（美国数学邀请赛）上满分通过，LCB（Jan-May）上得分79.4%，HMMT25（数学推理）上得分96.7%，以及在USAMO25（美国数学奥林匹克竞赛）上得分61.9%。这些成绩无疑证明了Grok 4的卓越智能。

为了更直观地展示Grok 4的智能水平，发布会上还播放了它与ChatGPT的语音对话对比视频。从视频中可以看出，Grok 4在对话中的表现明显优于ChatGPT，赢得了现场观众的阵阵掌声。

就在Grok 4发布前夕，OpenAI预热已久的开源推理模型也传出了即将发布的消息。然而，Grok 4的发布过程也并非一帆风顺。原定于某时间发布的它，因故推迟了一个小时，让众多期待已久的观众稍感焦急。不过，当Grok 4最终亮相时，其惊艳的表现瞬间化解了所有等待的焦虑。

发布会上，马斯克与斯坦福大学博士后、多伦多大学博士毕业的吴宇怀Yuhuai（Tony） Wu，以及2023年斯隆奖得主、Hinton手下的助理教授Jimmy Ba一同介绍了Grok 4的详细性能。他们指出，Grok 4的训练量是Grok 2的100倍、Grok 3的10倍，其中在强化学习方面投入了大量计算资源。同时，Grok 4在后训练过程中原生融入了工具，并通过多项结果对比论证了其有效性。

发布会现场还展示了Grok 4在多个领域的实际应用案例。它基于预测市场数据，准确预测了MLB世界大赛的胜率；通过模拟黑洞引力波碰撞，生成了真实的波形视觉动画；还能联网找到特定人群中的特定特征个体。这些案例充分展示了Grok 4在数学、推理、多模态理解等方面的强大能力。

Grok 4在编程、药物发现等领域也展现出了非凡的能力。在Live Coding Bench编程测试中，它几乎满分通过；在RKG药物基准中，它成为唯一突破10%准确率的模型。在自动零售bench上，Grok 4也排名第一，展现了其在实际商业场景中的应用潜力。

马斯克还透露，Grok系列后续将推出更多创新模型。包括即将发布的编程模型，以及正在研发中的多模态Agent和视频生成模型。这些新模型将进一步扩大Grok系列的应用范围，推动AI技术的不断发展。