2024 年另类 AI 评测标准走红：“威尔・史密斯吃意大利面”领衔

1.3K 0 0

GoodNav 于 1 月 1 日报道，TechCrunch 提到，随着人工智能视频生成技术的快速进步，一个有趣的趋势在行业内逐渐流行：每当一家新公司推出人工智能视频生成器时，总会有人第一时间利用此技术制作威尔·史密斯吃意大利面的影片。这不仅演变成了一个网络热潮，更成为了评估新型 AI 视频生成器性能的非正式标杆——检验其是否能够逼真地展现史密斯大口吃面的场景。威尔·史密斯本人也在今年 2 月通过 Instagram 发布了一段模仿他吃面的影片，亲身参与了这场网络狂欢。

要注意的是，“威尔·史密斯吃意大利面”只是 2024 年人工智能领域多个稀奇“非正式”评测标准之一。此前，一位 16 岁的开发者曾开发了一款应用，利用人工智能来控制《我的世界》（Minecraft）游戏，以测试其建筑能力。此外，还有一位英国程序员创建了一个平台，让人工智能在“你画我猜”（Pictionary）和“四子棋”（Connect 4）等游戏中进行对战。

尽管人工智能领域的性能测试种类繁多，而一些更为学术化的评测标准存在，但为何这些看似奇怪的测试能够迅速流行呢？一个原因在于，许多行业标准的人工智能基准测试对于普通人而言过于深奥晦涩。企业经常以其人工智能在奥林匹克数学竞赛或博士级别问题的解答能力自夸，但大多数人使用聊天机器人只为聊天或回复邮件。

即使是行业普遍采用的测试方法，也未必更为有效或富有信息量。例如，受到众多人工智能爱好者和开发者关注的公共基准测试平台“聊天机器人竞技场”（Chatbot Arena），允许任何网络用户对 AI 在特定任务上的表现进行评分，如创建网页应用程序或生成图像。然而，参与评分的用户通常没有代表性，他们大多来自人工智能和科技行业，且其评分往往基于个人的主观偏好，难以捉摸。

像“四子棋”“我的世界”以及“威尔·史密斯吃意大利面”这类奇特的人工智能基准测试显然不是严苛的实证研究，甚至缺乏普适性。即使人工智能能够完美复制“威尔·史密斯吃意大利面”的画面，也并不意味着其在生成汉堡图像时同样表现良好。

这些另类的人工智能基准测试在短期内可能不会消失，毕竟它们不仅存在娱乐性，而且易于理解。那么到 2025 年，将会出现哪些新的奇特基准测试呢？