Loading...

HELM

AI人工智能AI模型评测

HELM

斯坦福大学推出的大模型评测体系

标签：AI模型评测AI模型评测

链接直达手机查看

HELM代表Holistic Evaluation of Language Models（语言模型整体评估），是由斯坦福大学开发的一套大型模型评估体系。该评估方法主要涵盖三个模块：场景、适配和指标。在每次评估运行时，需指定一个场景、一个适配模型的提示以及一个或多个指标。该评估主要集中在英语，涵盖7个指标，包括准确率、不确定性/校准、鲁棒性、公平性、偏差、毒性和推断效率；任务类型包括问答、信息检索、摘要和文本分类等。

相关导航

中文通用大模型综合性测评基准

智源研究院推出的FlagEval（天秤）大模型评测平台

一个综合性的大模型中文评估基准

OpenCompass

上海人工智能实验室推出的大模型开放评测体系

H2O EvalGPT

H2O.ai推出的基于Elo评级方法的大模型评估系统

Open LLM Leaderboard

Hugging Face推出的开源大模型排行榜单

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

GoodNav - 发现优质资源网站，探索无限可能！我们精选全球设计、编程、AI、站长、游戏、工具、搜索、百科、生活、教育、娱乐等优质资源网站，助你提升效率，开启精彩网络世界！

友链申请免责声明广告合作关于我们

Copyright © 2022-2024 goodnav.net All Rights Reserved