马斯克xAI发布Grok 4.1：通用能力领先，情感创意双提升-信息流-贝尔财经

马斯克旗下人工智能公司xAI近日宣布，其最新研发的AI模型Grok 4.1已正式面向全球用户开放。用户可通过Grok官网、社交平台X以及iOS和Android应用直接体验这一升级版本，无需额外申请权限或等待邀请。

据官方介绍，Grok 4.1在真实场景中的交互能力实现质的飞跃。该模型不仅强化了对用户意图的精准捕捉，还能以更自然的方式展开对话，情感表达与人格连贯性显著提升。例如，在EQ-Bench3情绪智能测试中，其推理模式与非推理模式包揽榜单前两名，展现出在同理心、人际交往等复杂场景下的卓越表现。测试集包含45个高难度角色扮演场景，通过三轮对话评估模型的情绪理解与回应质量，Grok 4.1的得分远超同类竞品。

在通用能力领域，Grok 4.1同样刷新行业纪录。在LMArena的Text Arena排行榜中，其推理模式（代号quasarflux）以1483的Elo分数登顶总榜，较第二名高出31分；非推理模式（代号tensor）则以1465分紧随其后，即使不启用深度推理功能，仍超越其他模型在完整配置下的表现。这一成绩较前代Grok 4（总排名第33名）实现跨越式提升，标志着xAI在模型优化技术上的重大突破。

针对创意写作场景，Grok 4.1在Creative Writing v3基准测试中交出亮眼答卷。面对32个多样化写作提示与三轮迭代挑战，其推理模式与非推理模式分获第二、第三名，仅以微弱差距落后于早期GPT 5.1。测试通过评分细则与模型对战归一化分数双重验证，确保结果客观性。示例显示，该模型能生成富有逻辑性与文学性的长文本，在故事构建与细节描写上表现突出。

为解决AI模型常见的事实性错误问题，xAI在Grok 4.1的后训练阶段引入专项优化。通过分层抽样生产环境中的真实查询请求，并结合FActScore传记类问题基准测试（含500个关于不同人物的细节问题），模型在信息查询场景下的幻觉率显著下降。这一改进使得配备搜索工具的快速响应模式在提供即时答案时，仍能保持较高的事实准确性。

技术层面，xAI透露此次升级依托于大规模强化学习基础设施的深度优化。团队开发了新型评估方法，利用前沿智能体式推理模型作为奖励机制，实现输出结果的大规模自主迭代。这种创新使得模型在风格、个性、助人性等难以直接量化的维度上获得精准调校，同时保留了前代模型在智能水平与可靠性方面的核心优势。

目前，用户可在Grok官网或移动端应用中直接切换至4.1版本，系统将默认推送Auto模式，同时支持在模型选择器中手动切换推理与非推理模式。完整技术细节可查阅官方发布的模型卡文档。