Loading...
AI人工智能AI模型评测

MMBench

全方位的多模态大模型能力评测体系

标签:

MMBench是一个由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员共同开发的多模态基准测试。该系统设立了一个全面的评估流程,从感知到认知能力进行分阶段评估,涵盖了20项细粒度能力,并从互联网及权威基准数据集中采集了约3000道单选题。不同于传统的一问一答方式,该模式通过规则匹配提取选项进行评测,并反复打乱选项以验证输出结果的一致性,基于ChatGPT模型对选项进行精准匹配。

MMBench的特点与优势

  1. 评估维度基于感知与推理,逐步细化。大约3000道单选题涵盖了目标检测、文字识别、动作识别、图像
    理解、关系推理等20个细致的评估维度。
  2. 评估方式更加稳健。对于相同的单选问题,通过循环提问选项,如果模型输出均指向同一个答案,则视为通过。这种方法相比传统的一次性评估,top-1准确率平均下降10%至20%。这种方式最大限度地减少了各种噪音因素对评测结果的干扰,确保了结果的可重复性。
  3. 更为可靠的模型输出提取方式。基于ChatGPT模型,输出与选项之间进行匹配,即使模型未严格按照指令输出,也能准确找到最合理的选项。

 

相关导航

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...