ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

马斯克Grok-4发布,AI能力超博士,AIME25满分引发热议

时间:2025-07-10 16:05:41来源:量子位编辑:快讯团队

全球科技界翘首以盼的时刻终于到来,马斯克携其“世界最强”AI模型Grok 4震撼发布。这一创新成果在“人类最后考试”上大放异彩,成为首个突破50%准确率的AI模型,引发业界轰动。

Grok 4之所以能在这一高难度基准测试中脱颖而出,得益于其在训练过程中原生融入了工具。据马斯克介绍,Grok 4 Heavy版本在无额外工具辅助的测试下,已达到了44.4%的准确率,相较于之前的顶尖模型Gemini-2.5-Pro,提升幅度接近18个百分点。若在测试时同时训练并融入工具,其准确率更是攀升至惊人的50.7%。马斯克形象地比喻道,普通人类在这一基准上的得分可能仅有5%,而Grok 4的表现远超人类平均水平。

马斯克毫不吝啬地称赞道,Grok 4的智力水平已超过所有领域的博士生。它不仅能在不提前查看题目的情况下,几乎完美地完成SAT考试,还在GER考试中斩获几乎满分的佳绩。马斯克预测,最晚明年,我们就能见证Grok 4在物理学领域带来的新发现。

不仅如此,Grok 4在其他多项基准测试中也表现出色,甚至直接满分通过。在GPQA(研究生水平问答)上得分88.9%,AIME25(美国数学邀请赛)上满分通过,LCB(Jan-May)上得分79.4%,HMMT25(数学推理)上得分96.7%,以及在USAMO25(美国数学奥林匹克竞赛)上得分61.9%。这些成绩无疑证明了Grok 4的卓越智能。

为了更直观地展示Grok 4的智能水平,发布会上还播放了它与ChatGPT的语音对话对比视频。从视频中可以看出,Grok 4在对话中的表现明显优于ChatGPT,赢得了现场观众的阵阵掌声。

就在Grok 4发布前夕,OpenAI预热已久的开源推理模型也传出了即将发布的消息。然而,Grok 4的发布过程也并非一帆风顺。原定于某时间发布的它,因故推迟了一个小时,让众多期待已久的观众稍感焦急。不过,当Grok 4最终亮相时,其惊艳的表现瞬间化解了所有等待的焦虑。

发布会上,马斯克与斯坦福大学博士后、多伦多大学博士毕业的吴宇怀Yuhuai(Tony) Wu,以及2023年斯隆奖得主、Hinton手下的助理教授Jimmy Ba一同介绍了Grok 4的详细性能。他们指出,Grok 4的训练量是Grok 2的100倍、Grok 3的10倍,其中在强化学习方面投入了大量计算资源。同时,Grok 4在后训练过程中原生融入了工具,并通过多项结果对比论证了其有效性。

发布会现场还展示了Grok 4在多个领域的实际应用案例。它基于预测市场数据,准确预测了MLB世界大赛的胜率;通过模拟黑洞引力波碰撞,生成了真实的波形视觉动画;还能联网找到特定人群中的特定特征个体。这些案例充分展示了Grok 4在数学、推理、多模态理解等方面的强大能力。

Grok 4在编程、药物发现等领域也展现出了非凡的能力。在Live Coding Bench编程测试中,它几乎满分通过;在RKG药物基准中,它成为唯一突破10%准确率的模型。在自动零售bench上,Grok 4也排名第一,展现了其在实际商业场景中的应用潜力。

马斯克还透露,Grok系列后续将推出更多创新模型。包括即将发布的编程模型,以及正在研发中的多模态Agent和视频生成模型。这些新模型将进一步扩大Grok系列的应用范围,推动AI技术的不断发展。

更多热门内容