Loading...

Meta 发布 Llama 4 系列 AI 模型,引入“混合专家架构”提升效率

AI前沿资讯22小时前发布 GOODNAV.NET
520 0 0

GoodNav 发布消息称,Meta 于 4 月 6 日推出了最新的 Llama 4 系列 AI 模型,包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。Meta 指出,这些模型经过“大量未标注的文本、图像和视频数据”的训练,从而具备“广泛的视觉理解能力”

Meta 发布 Llama 4 系列 AI 模型,引入“混合专家架构”提升效率

目前,Meta 已经在 Hugging Face 上架了 Scout 和 Maverick 模型(点击访问</a),而 Behemoth 模型仍在训练中。Scout 可以在单个英伟达 H100 GPU 上运行,而 Maverick 则需要英伟达 H100 DGX AI 平台或性能相当的设备。

Meta 表示,Llama 4 系列模是公司的首批采用混合专家(MoE)架构的模型,该架构在训练和用户查询响应方面更具效率。所谓“混合专家架构”是将数据处理任务分解为子任务,并把它们分配给较小的、专门的“专家”模型。

Meta 发布 Llama 4 系列 AI 模型,引入“混合专家架构”提升效率

例如,Maverick 拥有 4000 亿个参数,但在 128 个“专家”模型中只有 170 亿个活跃参数(这些参数数量大致与模型的问题解决能力相关)。Scout 的活跃参数为 170 亿,包含 16 个“专家”模型,总参数量为 1090 亿。

Meta 发布 Llama 4 系列 AI 模型,引入“混合专家架构”提升效率

值得注意的是,Llama 4 系列的所有模型并不是像 OpenAI 的 o1 和 o3-mini 那样的真正“推理模型”。相比之下,“推理模型”会进行事实核查,通常更可靠地回答问题,但因此也需要更长时间才能给出答案。

Meta 的内部测试表明,Maverick 模型在“通用 AI 助手和聊天”等应用场景中表现最佳,该模型在创意写作、代码生成、翻译、推理、长文本上下文总结及图像基准测试中的表现超过了 OpenAI 的 GPT-4o 和谷歌的 Gemini 2.0。然而,与谷歌的 Gemini 2.5 Pro、Anthropic 的 Claude 3.7 Sonnet 以及 OpenAI 的 GPT-4.5 等更强大的最新模型相比,Maverick 仍有一定的改进空间。

Meta 发布 Llama 4 系列 AI 模型,引入“混合专家架构”提升效率

Scout 模型在文档总结和基于大型代码库的推理方面表现出色。其支持处理 1000 万个词元(“词元”代表原始文本的片段,例如单词“fantastic”可以拆分为“fan”、“tas”和“tic”),因此能够处理“多达数百万字的文本”。

另外,Meta 还提前透露了 Behemoth 模型,称其包含 2880 亿个活跃参数及 16 个“专家”模型,总参数量接近 2 万亿。Meta 内部基准测试显示,在评估一些解决数学问题的科学、技术、工程和数学(STEM)技能时,Behemoth 的表现超过了 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Pro,但不及 Gemini 2.5 Pro。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...