GPT-4o 能玩《黑神话:悟空》:精英怪胜率超人类,无强化学习纯大模型方案
AI 在《黑神话》中表现出色,轻松击败第一个精英怪牯护院。
而且完全依靠大模型进行游戏,没有使用强化学习。
阿里巴巴的研究团队提出了一种新型的 VARP(视觉动作角色扮演)智能体框架。该框架能够直接将游戏截图作为输入,通过视觉语言模型进行推理,最终生成 Python 代码形式的动作来控制游戏。
以《黑神话・悟空》为例,该智能体在 90% 的简单和中等难度战斗场景中获胜。
GPT-4o、Claude 3.5 共同参战
研究人员以《黑神话・悟空》为研究平台,共定义了 12 个任务,其中 75% 与战斗相关。
他们构建了一个人类操作数据集,包含键鼠操作和游戏截图,共有 1000 条有效数据。
每个操作由原子命令的不同组合构成,原子命令包括轻攻击、闪避、重攻击、回血等。
同时,VARP 还包含三个库:情景库、动作库和人工引导库。这些库中存储了智能体自我学习和人类指导的内容,能够进行检索和更新。
在动作库中,“def new_func_a ()”表示动作计划系统生成的新动作,“def new_func_h ()”表示人导轨迹系统生成的动作。“def pre_func ()”代表预定义的动作。
动作案例研究及相应的游戏截图。第一行和第二行中的操作是预定义的函数。第三行的动作由人工引导轨迹系统生成。
SOAG 会在玩家角色与敌人每次战斗互动后总结第四行和第五行中的新动作,并将其存储在动作库中。
该框架分别使用了 GPT-4o(2024-0513 版本)、Claude 3.5 Sonnet 和 Gemini 1.5 Pro。
对比人类与 AI 的表现结果,可以看到在小怪部分,AI 的表现已达到人类玩家的水平。
在牯护院时,Claude 3.5 Sonnet 败下阵来,而 GPT-4o 的胜率最高。
然而,对于新手玩家普遍感到棘手的幽魂,AI 们也无能为力。
此外,研究还提到,由于 VLMs 的推理速度有限,无法实时输入每一帧画面。它只能间隔输入关键帧,这也可能导致 AI 在某些情况下错过 boss 攻击的关键信息。
而且,由于游戏中没有明确的道路引导且存在许多空气墙,在没有人类引导的情况下,智能体也无法自行找到正确的路线。
以上研究来自阿里团队,共有 5 位作者。
后续相关代码和数据集将会发布,感兴趣的朋友可以关注。
One More Thing
AI 玩游戏并不是新鲜事,例如 AI 基于强化学习的方法在《星际争霸 II》中已经能够击败人类职业高手。
利用强化学习方案,通常需要输入大量对局。商汤之前训练的 DI-star(监督学习 + 强化学习)就使用了“16 万场录像”和“1 亿局对战”。
然而,纯大模型也能玩游戏,这仍然令人惊讶。在本研究中,数据集中的有效数据为 1000 条。
论文地址:
https://arxiv.org/abs/2409.12889
项目地址:
本文来自微信公众号:微信公众号(ID:QbitAI),作者:小明,原标题《GPT-4o 能玩《黑神话》!精英怪胜率超人类,无强化学习纯大模型方案