AI人工智能AI模型评测

Chatbot Arena

以众包方式进行匿名随机对战的LLM基准平台

标签：AI模型评测AI模型评测

链接直达手机查看

Chatbot Arena是一个针对大型语言模型 (LLM) 的基准测试平台，采用众包方式进行匿名的随机对战。该项目由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学联合创建的研究组织LMSYS Org发起。

用户可以通过demo体验地址进入对战平台，输入感兴趣的问题并提交。匿名模型会进行两两对决，分别生成相关答案。用户需要对这些答案进行评判，选择四个选项之一：模型A更优秀、模型B更优秀、平局、均不理想。平台支持多轮对话，并最终利用Elo评分系统对大型模型的表现进行综合评估。（用户可以指定模型观察效果，但这一选择不计入最终排名）。