OpenAI o3推理模型面世，能否打破“画饼”质疑领跑AI赛道？-信息流-小熊财经

在科技界万众瞩目的“双十二”尾声，OpenAI于12月20日悄然发布了其最新的o3推理模型，此举紧随谷歌前一天发布的推理模型，似乎是在向业界宣告其技术领先地位依旧稳固。o3作为9月推出的o1模型的升级版，命名上巧妙地避开了与英国电信运营商O2的潜在版权或商标冲突，直接跳跃至o3。

OpenAI介绍称，o3模型在复杂任务推理方面表现出色，尤其在科学、编码和数学等领域，相较于前代o1模型有了显著提升，尽管这伴随着处理时间的延长。以高级数学推理测试EpochAI Frontier Math为例，o3模型创造了25%的准确率纪录，而此前所有模型的准确率均未达到2%。

在迈向通用人工智能（AGI）的征途中，o3模型为OpenAI增添了一份底气。在ARC-AGI基准测试中，o3模型在高配版和低计算设置下分别获得了87.5%和75.7%的得分，是o1模型得分的三倍。然而，高计算模式下的成本高昂，每个任务可能耗资数千美元，相比之下，低计算模式则仅需约20美元。

尽管如此，ARC-AGI测试的创建者François Chollet对o3模型持谨慎态度，他认为o3在一些简单任务上的失败表明其与人类智能仍存在根本差异。他强调，只有当设计出对普通人容易但对AI难的任务变得不可能时，才标志着AGI的真正到来。

OpenAI透露，o3模型的迷你版o3-mini将于明年1月底推出，随后将发布完整的o3模型。为了安全起见，OpenAI正邀请安全研究人员申请体验o3模型，以补充现有的测试流程。

回顾OpenAI的“双十二”活动，虽然连续12个工作日的直播吸引了众多关注，但部分AI从业者却表示失望。他们认为，OpenAI此次活动更多地是在填补过去的空白，o3模型的发布更像是一个“预告”，其实际表现还需等待实际应用后才能确定。与以往快节奏、高密度的新品发布会相比，此次活动的直播时长较短，缺乏震撼感。

活动期间，OpenAI发布了多项期货产品，包括完整版o1模型、视频生成模型Sora以及在苹果设备中正式接入ChatGPT等。然而，这些产品的发布并未如预期般引起轰动。尤其是Sora模型，在沉寂298天后终于上线，却因服务器压力一度被迫关闭。与此同时，国内外多家公司也发布了视频模型，使得Sora在性价比和生成质量上并未占据明显优势。

OpenAI还推出了七个月前演示过的实时视频功能和向所有ChatGPT用户开放的搜索服务。然而，这些功能并非OpenAI首创，其最大竞争对手Anthropic早已推出类似功能。有AI从业者指出，从用户体验和交互设计上看，Anthropic的AI助手Claude呈现出更积极的创新姿态，OpenAI似乎是在参照竞争对手来完善ChatGPT。

面对外界的质疑，OpenAI通过发布o3模型再次表明其正转向新的推理范式，以应对Scaling Law收益递减、预训练数据短缺等挑战。同时，谷歌作为科技巨头，也在积极布局AI领域，与OpenAI展开了正面竞争。谷歌先后发布了量子芯片Willow、新一代大模型Gemini 2.0、推理模型以及视频和图像模型等，试图在AI智能体、视频生成和搜索等领域抢占先机。

谷歌推出的Gemini 2.0 Flash实验版本在多项基准测试中表现领先，并支持多模态输入和输出。谷歌还探索了一系列智能体项目，包括支持高级视觉和语音交互的Project Astra、能像人类一样使用网站的智能体Project Mariner以及编码智能体Jules。这些项目旨在打造全新的AI智能体，更接近通用助手的愿景。

在视频生成领域，谷歌发布了新一代视频模型Veo 2和升级后的图像生成模型Imagen 3。虽然Veo 2在理论上可以生成分辨率达4K、两分钟或以上的视频，但目前仅支持生成720P、时长8秒的视频。相比之下，ChatGPT Pro付费用户可通过Sora生成1080P、最长20秒的视频。

在搜索领域，谷歌也推出了“AI Overviews”概率功能来应对ChatGPT Search的挑战。然而，该功能因生成低质量结果而频频翻车。据最新报道，谷歌正计划为其数十亿搜索用户提供切换到AI模式的选项，以应对ChatGPT等竞争对手的冲击。

随着AI战局的瞬息万变，抢先入局者并不一定能始终保持领先。在国内，字节跳动凭借雄厚财力和顶尖人才，已呈现出赶超的趋势。而在国外，谷歌作为科技巨头，也在积极布局AI领域，试图赶超OpenAI。未来，AI领域的竞争将更加激烈和精彩。