外国高三学生创建 AI 评测网站:让模型在《我的世界》里“一决高下”
GoodNav 3月22日报道,由于传统的AI基准测试方法难以全面衡量模型的能力,AI开发者正在探索更具创意的测试方式。其中一种方式是利用微软的沙盒建造游戏《我的世界》进行评测。
据外媒TechCrunch报道,一名名叫阿迪・辛格(Adi Singh)的高中三年级学生创建了一个专门用于AI评测的网站,名为Minecraft Benchmark(简称MC-Bench),使AI模型能够在《我的世界》中展现才华,基于相同的提示生成建筑作品。用户可以对他们认为更优秀的作品进行投票,而投票结束后才会公布各个作品对应的AI。
他认为选择《我的世界》的意义不仅在于游戏本身,而在于它的广泛认可。即使没有玩过这款游戏,大家依然可以辨别哪个方块状的菠萝看起来更真实。“《我的世界》能让AI发展的进步更加直观,大家对其风格和视觉效果也非常熟悉。”
目前,MC-Bench的志愿者团队共有8人。根据MC-Bench网站的信息,Anthropic、谷歌、OpenAI和阿里巴巴为该项目提供了AI计算资源支持,但并未直接参与开发工作。
“目前,我们的测试仍相对基础,主要用于观察AI 从GPT-3时代以来的进展。不过,未来我们可能会扩展到更复杂的目标导向任务和长期规划能力评估,而游戏或许是一种理想的方式来测试AI智能体的推理能力——相较于现实世界,它更安全、更可控。”
严格来说,MC-Bench仍属于编程基准测试,因为AI需要编写代码来生成建筑,比如“霜雪人”或“热带风情的海滨小屋”。
相比分析代码,大多数用户更容易通过作品本身来评估AI的表现。至于这些测试结果是否真正能够反映AI的实际应用价值,仍然有待探讨。但是辛格认为,这些数据仍具有重要的参考意义。“MC-Bench当前的排行榜与我的实际使用体验高度吻合,而在许多传统的文本基准测试中并不常见,或许它能帮助AI开发者判断自己的方向是否正确。”