OpenAI 开源 SimpleQA 新基准,专治大模型“胡言乱语”
GoodNav 10 月 31 日报道,当地时间 30 日,OpenAI 宣布将开源一个新基准名为 SimpleQA,以衡量语言模型在回答简短事实寻求(fact-seeking)问题方面的准确性。
AI 领域的一个开放性挑战是如何训练模型生成准确的事实回答。目前的语言模型偶尔会出现错误的输出或未经过验证的回答,这一现象被称为“幻觉”。更准确且幻觉较少的语言模型更为可靠,能够用于更广泛的应用场景。
OpenAI 表示,SimpleQA 旨在创建一个具备以下特征的数据集:
-
高正确性:问题的参考答案经过两名独立的 AI 训练师验证,以确保评分的公正性。
-
多样性:SimpleQA 涉及广泛的主题,从科学技术到电视节目和电子游戏应有尽有。
-
前沿挑战性:与 TriviaQA(2017 年)或 NQ(2019 年)等早期基准相比,SimpleQA 更具挑战性,特别是对如 GPT-4o 等先进模型(例如,GPT-4o 的得分不足 40%)。
-
高效用户体验:SimpleQA 的问题与答案简洁明了,操作快速高效,且可通过 OpenAI API 等进行快速评分。此外,包含 4326 道问题的 SimpleQA 在评估中应具有较低的方差。
SimpleQA 将是一个简单但具有挑战性的基准,用于评估先进模型的事实准确性。值得注意的是,SimpleQA 在测量事实准确性时,其范围受到限制——尽管其在准确性上表现良好,但只在短查询的特定情境中测量,这些查询是以事实为导向并有可验证的答案。
OpenAI提到,模型在短回答中的事实表现是否与其在长篇、多事实内容中的表现相关,仍是一个待解答的研究课题。其希望 SimpleQA 的开源能够进一步促进 AI 研究的进展,以提升模型的可信性和可靠性。
附有关地址:
-
开源链接:https://github.com/openai/simple-evals/
-
论文:https://cdn.openai.com/papers/simpleqa.pdf