加州大学研究:AI 模型 GPT – 4.5 和 Llama 3.1 – 405B 可通过标准图灵测试
GoodNav 在 4 月 2 日报道,美国加州大学圣地亚哥分校发布了一项研究成果,声称首次提供了“人工智能系统能够通过标准三方图灵测试的实证证据”。
图灵测试由英国数学家和计算机科学家阿兰·图灵在 1950 年首次提出,他将其称为“模仿游戏”。图灵设想,如果提问者在进行文本交流时无法判断对方是机器还是人类,则该机器可能具备类似于人类的智能。在三方图灵测试中,提问者需要与一名人类和一台机器进行对话,并准确识别出人类的身份。
该研究对三款人工智能模型进行了测试:OpenAI 的 GPT-4.5、Meta 的 Llama 3.1 405B 及 OpenAI 的 GPT-4o。在实验中,人类参与者通过分屏界面与一位人类和一台 AI 系统进行五分钟的对话测试。每轮结束后,提问者需判断哪一方是人。
研究人员在两种条件下评估了这些 AI 模型的表现:一种是基础指令(NO-PERSONA)模式,另一种是增强型 PERSONA 模式,后者引导 AI 模拟特定的人类行为特征。结果显示,在 PERSONA 模式下,GPT-4.5 的胜率为 73%,表明提问者常常将其误认为是人;Llama 3.1-405B 的胜率约为 56%,而在 NO-PERSONA 模式下,GPT-4o 的胜率仅为 21%。
在对话中,61% 的互动涉及日常生活和个人细节的询问,50% 的互动则深入探讨社会和情感层面,如观点、情感、幽默感及个人经历。
研究报告指出:“如果提问者无法可靠地区分人类与机器,则该机器即被认为通过了图灵测试。基于这一逻辑,GPT-4.5 和 Llama 3.1-405B 在启用 PERSONA 模式时均通过了图灵测试。”
研究作者认为,这些 AI 系统有潜力在依赖简短对话的经济角色中无缝补充甚至取代人类劳动。他们进一步表示:“更广泛而言,这些系统可能成为难以区分的替代品,适用于与在线陌生人、朋友、同事甚至浪漫伴侣进行交流等各种社交场景。”