ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

马斯克xAI发布Grok 4.1:通用能力领先,情感创意双提升

时间:2025-11-18 12:43:59来源:快讯编辑:快讯

马斯克旗下人工智能公司xAI近日宣布,其最新研发的AI模型Grok 4.1已正式面向全球用户开放。用户可通过Grok官网、社交平台X以及iOS和Android应用直接体验这一升级版本,无需额外申请权限或等待邀请。

据官方介绍,Grok 4.1在真实场景中的交互能力实现质的飞跃。该模型不仅强化了对用户意图的精准捕捉,还能以更自然的方式展开对话,情感表达与人格连贯性显著提升。例如,在EQ-Bench3情绪智能测试中,其推理模式与非推理模式包揽榜单前两名,展现出在同理心、人际交往等复杂场景下的卓越表现。测试集包含45个高难度角色扮演场景,通过三轮对话评估模型的情绪理解与回应质量,Grok 4.1的得分远超同类竞品。

在通用能力领域,Grok 4.1同样刷新行业纪录。在LMArena的Text Arena排行榜中,其推理模式(代号quasarflux)以1483的Elo分数登顶总榜,较第二名高出31分;非推理模式(代号tensor)则以1465分紧随其后,即使不启用深度推理功能,仍超越其他模型在完整配置下的表现。这一成绩较前代Grok 4(总排名第33名)实现跨越式提升,标志着xAI在模型优化技术上的重大突破。

针对创意写作场景,Grok 4.1在Creative Writing v3基准测试中交出亮眼答卷。面对32个多样化写作提示与三轮迭代挑战,其推理模式与非推理模式分获第二、第三名,仅以微弱差距落后于早期GPT 5.1。测试通过评分细则与模型对战归一化分数双重验证,确保结果客观性。示例显示,该模型能生成富有逻辑性与文学性的长文本,在故事构建与细节描写上表现突出。

为解决AI模型常见的事实性错误问题,xAI在Grok 4.1的后训练阶段引入专项优化。通过分层抽样生产环境中的真实查询请求,并结合FActScore传记类问题基准测试(含500个关于不同人物的细节问题),模型在信息查询场景下的幻觉率显著下降。这一改进使得配备搜索工具的快速响应模式在提供即时答案时,仍能保持较高的事实准确性。

技术层面,xAI透露此次升级依托于大规模强化学习基础设施的深度优化。团队开发了新型评估方法,利用前沿智能体式推理模型作为奖励机制,实现输出结果的大规模自主迭代。这种创新使得模型在风格、个性、助人性等难以直接量化的维度上获得精准调校,同时保留了前代模型在智能水平与可靠性方面的核心优势。

目前,用户可在Grok官网或移动端应用中直接切换至4.1版本,系统将默认推送Auto模式,同时支持在模型选择器中手动切换推理与非推理模式。完整技术细节可查阅官方发布的模型卡文档。

更多热门内容
宇树科技G1机器人表演“小插曲”:耍功夫滑倒,彩排意外成欢乐一幕
来源:市场资讯 (来源:界面新闻) 近日,一博主分享的宇树科技G1机器人 “翻车视频” 引热议。视频中,身穿白色长衫的机器人表演冲拳、踢腿、格挡等动作,转身后却没站稳,接连倒退意外滑倒,一旁候场演员忍俊不禁。…

2026-06-03

5月中日航线变动:31条航线全停,超1500个航班取消率达37.6%
航班管家DAST最新统计显示,5月共有31条中日航线取消全部航班,比4月取消数量有所增加。 整个5月中国大陆赴日本共有1592个航班取消,取消率为37.6%。(第一财经)…

2026-06-03