FlagEval(天秤)是由智源研究院与多所高校团队合作开发的一款大模型评测平台,采用“能力—任务—指标”三维评估框架,旨在提供全面而详尽的评测结果。该平台目前涵盖了超过 30 种能力、5 种任务和 4 大类指标,总计支持 600 多个维度的综合评测。任务维度包括 22 个主观与客观评测数据集以及 84433 道题目。
相关导航
暂无评论...
FlagEval(天秤)是由智源研究院与多所高校团队合作开发的一款大模型评测平台,采用“能力—任务—指标”三维评估框架,旨在提供全面而详尽的评测结果。该平台目前涵盖了超过 30 种能力、5 种任务和 4 大类指标,总计支持 600 多个维度的综合评测。任务维度包括 22 个主观与客观评测数据集以及 84433 道题目。