Loading...

中国信通院启动 AI 大模型幻觉评测,总体涉及五种测试维度

GoodNav 3 月 19 日报道,来自中国信通院的官方微信公众号透露,为了了解大模型的幻觉现象并促进其应用深入发展,中国信息通信研究院人工智能所基于之前的 AI Safety Benchmark 测评工作,启动了大模型幻觉测试。

中国信通院启动 AI 大模型幻觉评测,总体涉及五种测试维度

大模型幻觉(AI Hallucination)是指在生成内容或回答问题时,模型所产生的内容看似合理但与用户输入不一致(忠实性幻觉)或不符合实际(事实性幻觉)。随着大模型在医疗、金融等关键领域的广泛应用,幻觉带来的潜在应用风险日益引起行业的关注。

本次幻觉测试工作将针对大语言模型进行,涵盖事实性幻觉和忠实性幻觉两种类型,具体测评体系如下:

图片

测试数据包含超过 7000 条中文测试样本,测试形式包括与忠实性幻觉检测相关的信息抽取与知识推理两类题目,以及与事实性幻觉检测相关的事实判断题型。总体涵盖人文科学、社会科学、自然科学、应用科学和形式科学五个测试维度。

图片

中国信通院邀请相关企业参与模型测评,携手推动大模型的安全应用。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...