Loading...
AI人工智能AI模型评测

HELM

斯坦福大学推出的大模型评测体系

标签:

HELM代表Holistic Evaluation of Language Models(语言模型整体评估),是由斯坦福大学开发的一套大型模型评估体系。该评估方法主要涵盖三个模块:场景、适配和指标。在每次评估运行时,需指定一个场景、一个适配模型的提示以及一个或多个指标。该评估主要集中在英语,涵盖7个指标,包括准确率、不确定性/校准、鲁棒性、公平性、偏差、毒性和推断效率;任务类型包括问答、信息检索、摘要和文本分类等。

相关导航

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...