马斯克旗下人工智能公司xAI近日宣布,其最新研发的AI模型Grok 4.1已正式面向全球用户开放。用户可通过Grok官网、社交平台X以及iOS和Android应用直接体验这一升级版本,无需额外申请权限或等待邀请。
据官方介绍,Grok 4.1在真实场景中的交互能力实现质的飞跃。该模型不仅强化了对用户意图的精准捕捉,还能以更自然的方式展开对话,情感表达与人格连贯性显著提升。例如,在EQ-Bench3情绪智能测试中,其推理模式与非推理模式包揽榜单前两名,展现出在同理心、人际交往等复杂场景下的卓越表现。测试集包含45个高难度角色扮演场景,通过三轮对话评估模型的情绪理解与回应质量,Grok 4.1的得分远超同类竞品。
在通用能力领域,Grok 4.1同样刷新行业纪录。在LMArena的Text Arena排行榜中,其推理模式(代号quasarflux)以1483的Elo分数登顶总榜,较第二名高出31分;非推理模式(代号tensor)则以1465分紧随其后,即使不启用深度推理功能,仍超越其他模型在完整配置下的表现。这一成绩较前代Grok 4(总排名第33名)实现跨越式提升,标志着xAI在模型优化技术上的重大突破。
针对创意写作场景,Grok 4.1在Creative Writing v3基准测试中交出亮眼答卷。面对32个多样化写作提示与三轮迭代挑战,其推理模式与非推理模式分获第二、第三名,仅以微弱差距落后于早期GPT 5.1。测试通过评分细则与模型对战归一化分数双重验证,确保结果客观性。示例显示,该模型能生成富有逻辑性与文学性的长文本,在故事构建与细节描写上表现突出。
为解决AI模型常见的事实性错误问题,xAI在Grok 4.1的后训练阶段引入专项优化。通过分层抽样生产环境中的真实查询请求,并结合FActScore传记类问题基准测试(含500个关于不同人物的细节问题),模型在信息查询场景下的幻觉率显著下降。这一改进使得配备搜索工具的快速响应模式在提供即时答案时,仍能保持较高的事实准确性。
技术层面,xAI透露此次升级依托于大规模强化学习基础设施的深度优化。团队开发了新型评估方法,利用前沿智能体式推理模型作为奖励机制,实现输出结果的大规模自主迭代。这种创新使得模型在风格、个性、助人性等难以直接量化的维度上获得精准调校,同时保留了前代模型在智能水平与可靠性方面的核心优势。
目前,用户可在Grok官网或移动端应用中直接切换至4.1版本,系统将默认推送Auto模式,同时支持在模型选择器中手动切换推理与非推理模式。完整技术细节可查阅官方发布的模型卡文档。





