ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

给AI百万启动资金模拟创业500天,仅三款大模型实现资金正向增长

时间:2026-07-01 16:32:17来源:天脉网编辑:快讯

研究团队指出,乔布斯展现的正是人类在制定方向、协调资源和引导组织实现长期目标方面的高超能力,这种能力被称为"战略智能"。然而,当前的AI系统虽然能够在编程、写作等单项任务上表现出色,但在复杂商业环境中持续制定和调整战略的能力仍有待提升。为了填补这一空白,研究团队开发了CEO-Bench基准测试。

CEO-Bench测试模拟了一个长达500天的AI创业公司经营环境。在这个虚拟世界中,每个AI模型获得100万美元启动资金,需要自主经营一家初创企业。AI可以访问企业管理工具、商业数据库和社交媒体等资源,在充满噪声、信息不完全且市场持续变化的商业环境中做出决策。测试最终以企业现金余额作为衡量模型表现的核心指标。

研究团队设计了34种工具,覆盖产品研发、定价策略、用户增长、企业销售、运营管理、信息获取和对外传播等多个业务环节。AI智能体每周做出一次决策,但无法直接获取关键信息,如客户满意度、市场需求和竞争对手计划等,必须通过间接信号进行推断。决策效果往往需要数周后才能显现,且外部环境会持续变化,要求AI不断调整战略。

在初步测试中,大多数先进大模型难以在500天的模拟经营中避免破产。表现最好的三个模型是Claude Fable 5、Claude Opus 4.8和GPT-5.5,它们在最佳运行中最终现金余额超过了初始资金。其中,Claude Fable 5是唯一在多次测试中都能实现资金增长的模型。相比之下,其他模型虽然保持了正现金流,但现金余额低于初始资金。作为对照,基于规则的基线系统最终将现金余额提升至1580万美元。

研究团队对模型决策过程进行了深入分析,发现能力更强的模型展现出更广泛的策略探索能力和更强的适应性。例如,GPT-5.5会根据市场变化不断调整获客、产品研发和定价策略;Claude Opus 4.8前期积极尝试多种策略,后期收敛到稳定模式;而Claude Opus 4.7则倾向于保守决策,主要围绕现金保全展开经营。

进一步分析显示,表现优秀的模型更善于开展面向特定客户群体的精细化产品开发。GPT-5.5将89%的研发投入用于定向开发,Claude Opus 4.8为87%,而其他模型平均只有43%。这种精细化策略有助于提升产品竞争力,延缓竞争对手追赶速度。领先模型在决策中更频繁使用条件判断,提前规划应对措施,并会主动编写辅助代码支持决策,如模拟未来现金流或分析客户偏好。

研究团队强调,CEO-Bench测试表明当前AI模型在复杂商业环境中持续制定和调整战略的能力仍然有限。虽然AI已经能够熟练完成单项任务,但要成为真正的"组织管理者",还需要在复杂、动态且充满不确定性的环境中展现出更强的战略智能。这项研究为开发下一代能够做出持续有效战略决策的AI系统提供了重要参考。

更多热门内容