Open LLM Leaderboard 是由 HuggingFace 推出的开源大模型排行榜,汇聚了最大的模型和数据集社区,基于 Eleuther AI 语言模型评估框架进行构建。
随着社区发布了大量的大型语言模型(LLM)和聊天机器人,往往会伴随着对其性能的夸大描述,这使得筛选出开源社区所取得的真实进展及当前最先进模型变得困难。因此,Hugging Face 利用 Eleuther AI 语言模型评估框架对模型进行了四项关键基准评估。这是一个统一的框架,旨在对众多不同评估任务上的生成式语言模型进行测试。
Open LLM Leaderboard 的评估基准
- AI2 推理挑战(25-shot):一系列针对小学科学的问题
- HellaSwag(10-shot):一个考察常识推理的任务,人类容易完成(约95%),但对当前最先进模型具有挑战性。
- MMLU(5-shot)- 用于测量文本模型在多个任务上的准确性。测试包含57个任务,覆盖基础数学、美国历史、计算机科学、法律等领域。
- TruthfulQA(0-shot)- 用于评估模型在网上常见虚假信息中的复制倾向。
相关导航
暂无评论...