在电子游戏《我的世界》那由方块构成的无限世界里,玩家们曾无数次在夜幕下匆忙搭建简陋木屋,以躲避怪物的侵扰;也曾精心复刻从校园到阿房宫的每一砖一瓦;更曾深入矿道,只为探寻岩浆洞穴中那抹诱人的蓝绿色光芒。这款游戏,对无数90后、00后而言,不仅是一段段难忘的记忆,更是创造力与冒险精神的见证。
然而,当我们将目光转向人工智能(AI),一个全新的挑战悄然浮现:AI能否在这个由玩家自由探索与创造的开放世界中,找到那象征着财富与成就的钻石?
《我的世界》不同于那些规则明确、目标清晰的传统电子游戏。在这里,没有固定的游戏目标,没有预设的玩法,甚至每次进入新游戏,都会面对由随机种子生成的全新世界。人类玩家可以凭借直觉、经验和创造力去适应环境,但AI呢?它们能否在这个充满未知与挑战的世界里“活下去”?
事实上,早在2019年,就有研究者开始尝试让AI玩《我的世界》。Facebook推出了CraftAssist Bot,让AI能在游戏中执行人类指令;而CMU、微软、DeepMind、OpenAI等机构则联合发起了MineRL大赛,探索将互联网视觉数据融入游戏技能学习的新路径。然而,900多个顶尖团队倾尽全力,竟无一能让AI成功挖到钻石。
在这场挑战中,AI展现出了面对开放世界的困境。它们不像人类那样拥有丰富的常识和直觉,而是必须从零开始,一步步推导出世界的运行规则。但这也正是《我的世界》的魅力所在:它不仅考验操作技巧,更考验对环境的理解、对资源的管理以及对长远目标的规划。
随着研究的深入,强化学习(Reinforcement Learning)逐渐成为AI在《我的世界》中取得突破的关键。通过与环境不断互动并获得反馈,AI逐渐学会了如何更有效地探索地图、管理资源、打造装备乃至执行更复杂的长期任务。腾讯AILab的“绝悟”在2022年MineRL大赛中以绝对优势夺冠,首次证明了AI能在这一开放世界游戏中取得显著成绩。
而到了2024年,DeepMind的DreamerV3更是实现了近乎真正的自主探索。它没有观看任何人类数据,完全靠自己摸索,仅用17天就完成了MineRL挑战,成为首个能“自力更生”挖到钻石的AI。这一成就不仅刷新了AI在《我的世界》中的表现记录,更展现了AI在面对复杂环境时的强大适应能力和学习能力。
然而,AI在《我的世界》中的征程并未止步。DeepMind在2025年的最新研究中,再次刷新了认知边界。他们打造的强化学习智能体不仅能规划、探索,还能在有限的交互数据下高效学习,并逐渐掌握高效的生存之道,最终超越了人类玩家的成绩。
这一突破的关键在于基于模型的强化学习(MBRL)和Transformer世界模型(TWM)的结合。研究者通过同时利用真实数据和想象轨迹进行训练,提高了策略的泛化能力;并通过优化视觉信息的离散化编码以及采用更高效的训练方法——块式教师强制(BTF),进一步提升了世界模型的学习效率和策略优化的效率。
在实验中,这款AI不仅在单人模式下取得了优异成绩,还在多人评测对战中战胜了人类高手。这一结果证明,RL AI不仅能自主学习,还能在高度复杂的环境中做出比人类更优的决策。这不禁让人遐想:或许有一天,AI真的能像人类一样,在这个无限广阔的像素世界里自由探索、创造,成为某个数字宇宙里的创世神。