给AI百万启动资金模拟创业500天，仅三款大模型实现资金正向增长-企业动态-贝尔财经

研究团队指出，乔布斯展现的正是人类在制定方向、协调资源和引导组织实现长期目标方面的高超能力，这种能力被称为"战略智能"。然而，当前的AI系统虽然能够在编程、写作等单项任务上表现出色，但在复杂商业环境中持续制定和调整战略的能力仍有待提升。为了填补这一空白，研究团队开发了CEO-Bench基准测试。

CEO-Bench测试模拟了一个长达500天的AI创业公司经营环境。在这个虚拟世界中，每个AI模型获得100万美元启动资金，需要自主经营一家初创企业。AI可以访问企业管理工具、商业数据库和社交媒体等资源，在充满噪声、信息不完全且市场持续变化的商业环境中做出决策。测试最终以企业现金余额作为衡量模型表现的核心指标。

研究团队设计了34种工具，覆盖产品研发、定价策略、用户增长、企业销售、运营管理、信息获取和对外传播等多个业务环节。AI智能体每周做出一次决策，但无法直接获取关键信息，如客户满意度、市场需求和竞争对手计划等，必须通过间接信号进行推断。决策效果往往需要数周后才能显现，且外部环境会持续变化，要求AI不断调整战略。

在初步测试中，大多数先进大模型难以在500天的模拟经营中避免破产。表现最好的三个模型是Claude Fable 5、Claude Opus 4.8和GPT-5.5，它们在最佳运行中最终现金余额超过了初始资金。其中，Claude Fable 5是唯一在多次测试中都能实现资金增长的模型。相比之下，其他模型虽然保持了正现金流，但现金余额低于初始资金。作为对照，基于规则的基线系统最终将现金余额提升至1580万美元。

研究团队对模型决策过程进行了深入分析，发现能力更强的模型展现出更广泛的策略探索能力和更强的适应性。例如，GPT-5.5会根据市场变化不断调整获客、产品研发和定价策略；Claude Opus 4.8前期积极尝试多种策略，后期收敛到稳定模式；而Claude Opus 4.7则倾向于保守决策，主要围绕现金保全展开经营。

进一步分析显示，表现优秀的模型更善于开展面向特定客户群体的精细化产品开发。GPT-5.5将89%的研发投入用于定向开发，Claude Opus 4.8为87%，而其他模型平均只有43%。这种精细化策略有助于提升产品竞争力，延缓竞争对手追赶速度。领先模型在决策中更频繁使用条件判断，提前规划应对措施，并会主动编写辅助代码支持决策，如模拟未来现金流或分析客户偏好。

研究团队强调，CEO-Bench测试表明当前AI模型在复杂商业环境中持续制定和调整战略的能力仍然有限。虽然AI已经能够熟练完成单项任务，但要成为真正的"组织管理者"，还需要在复杂、动态且充满不确定性的环境中展现出更强的战略智能。这项研究为开发下一代能够做出持续有效战略决策的AI系统提供了重要参考。