Loading...

FlagEval

AI人工智能AI模型评测

FlagEval

智源研究院推出的FlagEval（天秤）大模型评测平台

标签：AI模型评测AI模型评测

链接直达手机查看

FlagEval（天秤）是由智源研究院与多所高校团队合作开发的一款大模型评测平台，采用“能力—任务—指标”三维评估框架，旨在提供全面而详尽的评测结果。该平台目前涵盖了超过 30 种能力、5 种任务和 4 大类指标，总计支持 600 多个维度的综合评测。任务维度包括 22 个主观与客观评测数据集以及 84433 道题目。

相关导航

生物医学研究问答数据集和模型得分排行榜

全方位的多模态大模型能力评测体系

H2O EvalGPT

H2O.ai推出的基于Elo评级方法的大模型评估系统

Chatbot Arena

以众包方式进行匿名随机对战的LLM基准平台

由复旦大学NLP实验室推出的大模型评测基准

斯坦福大学推出的大模型评测体系

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

GoodNav - 发现优质资源网站，探索无限可能！我们精选全球设计、编程、AI、站长、游戏、工具、搜索、百科、生活、教育、娱乐等优质资源网站，助你提升效率，开启精彩网络世界！

友链申请免责声明广告合作关于我们

Copyright © 2022-2024 goodnav.net All Rights Reserved