Chatbot Arena是一个针对大型语言模型 (LLM) 的基准测试平台,采用众包方式进行匿名的随机对战。该项目由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学联合创建的研究组织LMSYS Org发起。
用户可以通过demo体验地址进入对战平台,输入感兴趣的问题并提交。匿名模型会进行两两对决,分别生成相关答案。用户需要对这些答案进行评判,选择四个选项之一:模型A更优秀、模型B更优秀、平局、均不理想。平台支持多轮对话,并最终利用Elo评分系统对大型模型的表现进行综合评估。(用户可以指定模型观察效果,但这一选择不计入最终排名)。
相关导航
暂无评论...