Loading...
AI人工智能AI模型评测

FlagEval

智源研究院推出的FlagEval(天秤)大模型评测平台

标签:

FlagEval(天秤)是由智源研究院与多所高校团队合作开发的一款大模型评测平台,采用“能力—任务—指标”三维评估框架,旨在提供全面而详尽的评测结果。该平台目前涵盖了超过 30 种能力、5 种任务和 4 大类指标,总计支持 600 多个维度的综合评测。任务维度包括 22 个主观与客观评测数据集以及 84433 道题目。

相关导航

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...