近日,人工智能领域迎来了一场震撼人心的较量。在备受瞩目的“人类终极考验”(Humanity’s Last Exam)中,一款名为Grok 4的AI系统以卓越表现脱颖而出,未借助任何外部“工具”便取得了25.4%的准确率,力压谷歌的Gemini 2.5 Pro(21.6%)和OpenAI的o3高版本(21%)。
当为Grok 4配备“工具”后,其性能更是飙升,以44.4%的得分远超配备工具的Gemini 2.5 Pro(26.9%)。这一成绩不仅巩固了Grok 4在AI领域的领先地位,也预示着人工智能正迈向一个全新的发展阶段。
在直播活动中,特斯拉和SpaceX的创始人埃隆·马斯克难掩激动之情,分享了Grok 4的卓越成就。他强调,Grok 4在人文、语言、数学、物理、工程等多个领域均展现出了超越博士水平的学术能力,尽管在某些情况下可能缺乏常识,且尚未实现新技术的发明或新物理学说的发现,但这一切只是时间问题。
为了进一步满足高端用户的需求,xAI推出了迄今为止最昂贵的AI订阅计划——Super Grok Heavy,每月费用高达300美元。订阅者将能够提前体验Grok 4 Heavy及其即将推出的新功能,包括8月的AI编码模型、9月的多模态智能体以及10月的视频生成模型。
马斯克在直播结束后,还在社交平台X上发文称赞了Grok 4的强大功能,表示用户可以将整个源代码文件粘贴到Grok的查询输入框中,Grok 4将帮助用户解决问题,其表现甚至优于Cursor。
Grok 4不仅在Humanity’s Last Exam中表现出色,还在GPQA、AIME25、LCB(Jan-May)、HMMT25等多项测评中超越了OpenAI o3、Gemini 2.5 Pro、Claude 4 Opus等模型。特别是在ARC-AGI-2测试中,Grok 4以16.2%的得分夺得榜首,几乎是排名第二的Claude Opus 4得分的两倍。
xAI的研究人员透露,从Grok 2到Grok 4,每次迭代都实现了训练量级的显著提升,Grok 4的训练量级已达到Grok 2的100倍。这一巨大的训练量使得Grok 4在智力上实现了质的飞跃。未来,Grok 4还将融合有限元分析、计算流体动力学等强大工具进行训练,旨在打造精确的物理模拟器,并最终通过人形机器人(如擎天柱)与现实世界进行互动。
在直播现场,xAI研究员展示了Grok 4回答问题的能力,包括理解世界、利用工具解决难题、生成黑洞碰撞的可视化图像等。Grok 4还在数学、时间线创建、考试成绩查询等方面展现了出色的表现。尽管在多模态测试方面分数略有下降,但马斯克表示,Grok 4的多模态理解能力正在不断改进,预计几周内将有所改善。
xAI的企业部门虽然仅成立两个月,但已通过其云平台向各行业企业提供了Grok 4服务。在自动售货机商业场景中,使用Grok 4 API的团队获得了令人印象深刻的结果,模拟运行时间和得分均翻倍,且前后保持较强一致性。在游戏创作领域,Grok 4能够在短时间内制作出具有视觉吸引力的第一人称射击游戏,为开发人员提供了极大的便利。