中国联通业界首次提出大模型能力边界量化基准,避免“高射炮打蚊子”情况
GoodNav 12 月 27 日消息,根据中国联通今天的官方公告,该公司借鉴动物智能进化的规律,并结合大型模型在现实中的应用,首次在行业中提出了大模型能力边界量化基准,对主流语言大模型能力进行定量分析,详尽描述模型参数数量、能力以及应用场景之间的联系,为语言大模型的选择提供理论和实践指导,从而有助于降低使用语言大模型的门槛。
相关研究成果已在自然语言处理的权威会议 NLPCC 2024 上发表,题为 <What is the Best Model? Application-Driven Evaluation for Large Language Models>,相应的评估基准已经向行业开源。
借鉴动物智能演化规律
通常来说,动物的神经元数量越多,其脑容量越大,智力水平也相应较高。同时,不同智力水平的动物在任务类型和难度上也有所差异,甚至小小的乌鸦也能完成类似“乌鸦喝水”的任务。
类似地,在语言大模型领域,不断扩展的法则表明模型参数量越大,模型能力越强,相应的计算消耗和应用成本也随之剧增。然而,这种定性分析并不足够,大模型能力边界的量化刻画缺失,在实际应用中常常出现“高射炮打蚊子”的现象。因此,定量刻画大模型能力边界显得格外重要和迫切。
构建大模型能力评估基准
中国联通的研究团队从实际应用场景的角度出发,对语言大模型的主要能力进行了归纳和总结,建立了以应用为驱动的大语言模型能力评估基准。该评估基准涵盖了文本生成、理解、关键信息抽取、逻辑推理、任务规划等五个主要能力,并且细分为 27 种子能力。
针对这 27 种子能力,中国联通的研究团队相应设计了评测任务,并构造了由容易、中等和困难三个难度等级组成的678 个问答对的评估数据集。为防止数据泄露,所有数据均由专家团队手动编写。
量化主流大模型能力边界
团队设计了专家评估与基于大模型的自动测试方法,对同一家族中的 8 个不同规模模型(0.5B、1.8B、4B、7B、14B、32B、72B、110B)进行了测试和评估,以避免模型架构、训练数据等非模型参数量因素对评估结果的影响,获得了不同参数量模型在多种任务上的可靠评估结果。从下图中可以看出,不同参数量的模型能力各异,模型参数越大,能力越强,复杂任务需要使用更大参数的模型。
依据能力要求确定模型参数量
根据语言大模型能力边界的测评结果,团队提出了一种简单实用的模型选择方法,为模型落地应用时的参数选择提供了指导。总体来看,针对不同任务,任务的难度越高所需参数越大;在同一任务中,参数越大模型性能越好。
具体来说,可依据某项任务对模型性能的最低要求来选择相应参数规模,以图中任务为例:
-
在用户需求准确率为 80% 的前提下,对于拼写错误校正任务,14B 以上的模型可获得 90 分以上;
-
对于逻辑错误检测任务,110B 以上的模型可达到 90 分以上;
-
如果需要同时应用多个任务,建议先为每个任务选择合适的模型,再选择其中参数量最大的模型即可。
在选择过程中用户无需对大模型有深入了解,这将降低用户使用大模型的门槛,推动大模型的普及。
探索设计模型选型使用“说明书”
在元景大模型落地应用中,中国联通基于上述评估基准,开发了评估工具,量化了 1B、7B、13B、34B 及 70B 等元景基础大模型的能力边界,并分别用于违规短信分类、投诉工单分类、客服助手、渔业知识问答、元景 App 问答等多个场景,从而提炼出“模型参数量-模型能力-应用场景”的关联关系(如下图),作为大模型的使用“说明书”,集成到元景 MaaS 平台,为开发者提供模型选择指引。
附论文链接:https://arxiv.org/abs/2406.10307
评估基准:https://github.com/UnicomAI/UnicomBenchmark/tree/main/A-Eval