马斯克发布Grok 4，挑战OpenAI！人类终极测试表现如何？-信息流-贝尔财经

近日，人工智能领域迎来了一场震撼人心的较量。在备受瞩目的“人类终极考验”（Humanity’s Last Exam）中，一款名为Grok 4的AI系统以卓越表现脱颖而出，未借助任何外部“工具”便取得了25.4%的准确率，力压谷歌的Gemini 2.5 Pro（21.6%）和OpenAI的o3高版本（21%）。

当为Grok 4配备“工具”后，其性能更是飙升，以44.4%的得分远超配备工具的Gemini 2.5 Pro（26.9%）。这一成绩不仅巩固了Grok 4在AI领域的领先地位，也预示着人工智能正迈向一个全新的发展阶段。

Grok 4在Humanity’s Last Exam测评中取得第一

在直播活动中，特斯拉和SpaceX的创始人埃隆·马斯克难掩激动之情，分享了Grok 4的卓越成就。他强调，Grok 4在人文、语言、数学、物理、工程等多个领域均展现出了超越博士水平的学术能力，尽管在某些情况下可能缺乏常识，且尚未实现新技术的发明或新物理学说的发现，但这一切只是时间问题。

每月300美元的Super Grok Heavy正式推出

为了进一步满足高端用户的需求，xAI推出了迄今为止最昂贵的AI订阅计划——Super Grok Heavy，每月费用高达300美元。订阅者将能够提前体验Grok 4 Heavy及其即将推出的新功能，包括8月的AI编码模型、9月的多模态智能体以及10月的视频生成模型。

马斯克在直播结束后，还在社交平台X上发文称赞了Grok 4的强大功能，表示用户可以将整个源代码文件粘贴到Grok的查询输入框中，Grok 4将帮助用户解决问题，其表现甚至优于Cursor。

Grok 4在ARC-AGI-2测试中取得新最高得分

Grok 4不仅在Humanity’s Last Exam中表现出色，还在GPQA、AIME25、LCB（Jan-May）、HMMT25等多项测评中超越了OpenAI o3、Gemini 2.5 Pro、Claude 4 Opus等模型。特别是在ARC-AGI-2测试中，Grok 4以16.2%的得分夺得榜首，几乎是排名第二的Claude Opus 4得分的两倍。

xAI的研究人员透露，从Grok 2到Grok 4，每次迭代都实现了训练量级的显著提升，Grok 4的训练量级已达到Grok 2的100倍。这一巨大的训练量使得Grok 4在智力上实现了质的飞跃。未来，Grok 4还将融合有限元分析、计算流体动力学等强大工具进行训练，旨在打造精确的物理模拟器，并最终通过人形机器人（如擎天柱）与现实世界进行互动。

xAI通过其云平台提供Grok 4服务

在直播现场，xAI研究员展示了Grok 4回答问题的能力，包括理解世界、利用工具解决难题、生成黑洞碰撞的可视化图像等。Grok 4还在数学、时间线创建、考试成绩查询等方面展现了出色的表现。尽管在多模态测试方面分数略有下降，但马斯克表示，Grok 4的多模态理解能力正在不断改进，预计几周内将有所改善。

Grok 4制作的第一人称射击游戏

xAI的企业部门虽然仅成立两个月，但已通过其云平台向各行业企业提供了Grok 4服务。在自动售货机商业场景中，使用Grok 4 API的团队获得了令人印象深刻的结果，模拟运行时间和得分均翻倍，且前后保持较强一致性。在游戏创作领域，Grok 4能够在短时间内制作出具有视觉吸引力的第一人称射击游戏，为开发人员提供了极大的便利。