Loading...

谷歌发布 FACTS Grounding 基准：Gemini、GPT-4o、Claude 当评委，成 AI 大语言模型“幻觉照妖镜”

AI前沿资讯4个月前发布 GOODNAV.NET

1.3K 0 0

GoodNav 12月18日报道，谷歌的DeepMind团队于12月17日发布了一篇博文，宣布推出FACTS Grounding基准测试，旨在评估大型语言模型（LLMs）在给定材料的基础上，是否能够准确回答问题，同时减少“幻觉”（即虚构信息）的发生，从而提高LLMs的事实准确性，增强用户信任，并扩展其应用场景。

数据集

在数据集方面，ACTS Grounding数据集包含1719个示例，涵盖金融、科技、零售、医疗和法律等多个领域。每个示例包括一篇文档、一条基于文档的系统指令，以及相关的提示词。

示例文档的长度各不相同，最长可达32000个token（约20000字）。用户请求的任务包括摘要、问答生成和文本修改等，但不涉及需要创造性思维、数学计算或复杂推理的任务。演示图片如下：

谷歌发布 FACTS Grounding 基准：Gemini、GPT-4o、Claude 当评委，成 AI 大语言模型“幻觉照妖镜”

该数据集分为860个“公共”示例和859个“私有”示例，公共数据集已公开供评估使用，私有数据集则用于排行榜评分，以防基准受污染和避免作弊。

谷歌发布 FACTS Grounding 基准：Gemini、GPT-4o、Claude 当评委，成 AI 大语言模型“幻觉照妖镜”

评估方案

在评估方案中，FACTS Grounding使用Gemini 1.5 Pro、GPT-4o和Claude 3.5 Sonnet三种模型作为评委，评估答案的充分性、事实准确性及其与文档的相关性。

谷歌发布 FACTS Grounding 基准：Gemini、GPT-4o、Claude 当评委，成 AI 大语言模型“幻觉照妖镜”

评估过程分为两个阶段：首先检查响应是否满足资格，即是否充分回答了用户的请求；然后评估响应的事实准确性，确认其是否严格基于提供的文档，是否存在“幻觉”，最终通过所有示例的平均得分得出结果。

在FACTS Grounding基准中，谷歌的Gemini模型在文本生成的事实准确性方面表现最佳。

谷歌发布 FACTS Grounding 基准：Gemini、GPT-4o、Claude 当评委，成 AI 大语言模型“幻觉照妖镜”

参考地址

# AI前沿资讯 # AI # GPT # 谷歌

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

耗资十亿日元开发，日本儿童虐待检测 AI 系统项目宣告失败

GoodNav.net

600

中国科学家运用人工智能算法发现大量全新 RNA 病毒，大幅拓宽 RNA 病毒库

GoodNav.net

1.6K

谷歌追赶 OpenAI，加速推进会“思考”的 AI 通用推理模型

GoodNav.net

1.4K

OpenAI 引领 AI 浪潮：o1 模型可处理 5 小时任务，颠覆营销思维和模式

GoodNav.net

1.4K

Perplexity AI 搜索引擎每周处理 1 亿次查询，消息称微软 / X / OpenAI 有意收购

GoodNav.net

1.6K

广东：人工智能和机器人单个外资项目最高奖励 1.5 亿元

GoodNav.net

355

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

GoodNav - 发现优质资源网站，探索无限可能！我们精选全球设计、编程、AI、站长、游戏、工具、搜索、百科、生活、教育、娱乐等优质资源网站，助你提升效率，开启精彩网络世界！

友链申请免责声明广告合作关于我们

Copyright © 2022-2024 goodnav.net All Rights Reserved