外国高三学生创建 AI 评测网站：让模型在《我的世界》里“一决高下”

485 0 0

GoodNav 3月22日报道，由于传统的AI基准测试方法难以全面衡量模型的能力，AI开发者正在探索更具创意的测试方式。其中一种方式是利用微软的沙盒建造游戏《我的世界》进行评测。

据外媒TechCrunch报道，一名名叫阿迪・辛格（Adi Singh）的高中三年级学生创建了一个专门用于AI评测的网站，名为Minecraft Benchmark（简称MC-Bench），使AI模型能够在《我的世界》中展现才华，基于相同的提示生成建筑作品。用户可以对他们认为更优秀的作品进行投票，而投票结束后才会公布各个作品对应的AI。

他认为选择《我的世界》的意义不仅在于游戏本身，而在于它的广泛认可。即使没有玩过这款游戏，大家依然可以辨别哪个方块状的菠萝看起来更真实。“《我的世界》能让AI发展的进步更加直观，大家对其风格和视觉效果也非常熟悉。”

目前，MC-Bench的志愿者团队共有8人。根据MC-Bench网站的信息，Anthropic、谷歌、OpenAI和阿里巴巴为该项目提供了AI计算资源支持，但并未直接参与开发工作。

“目前，我们的测试仍相对基础，主要用于观察AI 从GPT-3时代以来的进展。不过，未来我们可能会扩展到更复杂的目标导向任务和长期规划能力评估，而游戏或许是一种理想的方式来测试AI智能体的推理能力——相较于现实世界，它更安全、更可控。”

外国高三学生创建 AI 评测网站：让模型在《我的世界》里“一决高下”

严格来说，MC-Bench仍属于编程基准测试，因为AI需要编写代码来生成建筑，比如“霜雪人”或“热带风情的海滨小屋”。

相比分析代码，大多数用户更容易通过作品本身来评估AI的表现。至于这些测试结果是否真正能够反映AI的实际应用价值，仍然有待探讨。但是辛格认为，这些数据仍具有重要的参考意义。“MC-Bench当前的排行榜与我的实际使用体验高度吻合，而在许多传统的文本基准测试中并不常见，或许它能帮助AI开发者判断自己的方向是否正确。”

# AI前沿资讯