Loading...

开源版 OpenAI 再出神作:小模型吊打 Meta Llama 3,Ministral 系列开启边缘 AI 革命

在 Mistral 7B 发布一周年之际,法国 AI 初创公司 Mistral 推出了两个新轻量级模型 Ministral 3B 和 Ministral 8B,性能已超过 Llama 3 8B。

开源版 OpenAI 再出神作:小模型吊打 Meta Llama 3,Ministral 系列开启边缘 AI 革命

Mistral 7B 刚刚发布一周年,法国 AI 初创公司推出的轻量级模型「les Ministraux」便已经超越了它,成为世界顶尖的边缘模型。

开源版 OpenAI 再出神作:小模型吊打 Meta Llama 3,Ministral 系列开启边缘 AI 革命

Ministral 3B 与 Ministral 8B 均为专为边缘设备设计的轻量级模型,现已正式加入 Mixtral、Pixtral、Codestral 和 Mathstral 行列,成为 Mistral 的一部分。

开源版 OpenAI 再出神作:小模型吊打 Meta Llama 3,Ministral 系列开启边缘 AI 革命

尽管仅提供 30 亿参数,Ministral 3B 和 Ministral 8B 在指令跟随基准上完全超越了 Llama 3 8B 以及其前辈 Mistral 7B。此外,这两款新模型在大模型测试中也取得了与 Gemma 2 和 Llama 3.1 开源模型相当的成绩。

开源版 OpenAI 再出神作:小模型吊打 Meta Llama 3,Ministral 系列开启边缘 AI 革命

无与伦比的边缘模型

Ministral 3B 和 Ministral 8B 支持高达 128k 的上下文(目前在 vLLM 上为 32k)。

在知识、常识、推理、函数调用与效率等多个方面,为低于 10B 的参数模型设立了新的标准。

同时,Ministral 8B 还引入了滑动窗口注意机制(sliding-window attention),提升了推理速度和内存使用效率。

无论是管理复杂的 AI 智能体工作流还是创建专用任务助手,这些模型都能灵活调优以适应不同的应用场景。

开源版 OpenAI 再出神作:小模型吊打 Meta Llama 3,Ministral 系列开启边缘 AI 革命

超越开源模型,击败 Mistral 7B

研究人员在多项基准测试中对 Les Ministraux 的性能进行了评估。

这些测试涵盖了知识、常识、代码和数学等多个领域。

预训练模型

比较之下,Ministral 3B 在与 Gema 2 2B 和 Llama 3.2 3B 的对比测试中表现优异。

在与 Llama 3.1 8B 和 Mistral 7B 的比较中,Ministral 8B 在代码能力上稍显劣势,其他方面则展现出最佳性能。

开源版 OpenAI 再出神作:小模型吊打 Meta Llama 3,Ministral 系列开启边缘 AI 革命

以下柱状图直观地显示了 Minstral 8B 在各项评测中所占据的首位。

开源版 OpenAI 再出神作:小模型吊打 Meta Llama 3,Ministral 系列开启边缘 AI 革命

指令模型

再来看微调后的指令模型性能比对的结果。

在大模型竞争中,Minstral 3B 在多项基准测试中表现突出,而 Minstral 8B 在 Wild bench 上稍逊于 Gema 2 9B。

另外,在代码、数学和函数调用等领域,两款新模型的表现显著超越其他模型。

开源版 OpenAI 再出神作:小模型吊打 Meta Llama 3,Ministral 系列开启边缘 AI 革命

下图清楚地展示了微调后的 Minstral 3B 与更大 Mistral 7B 之间的改进。

开源版 OpenAI 再出神作:小模型吊打 Meta Llama 3,Ministral 系列开启边缘 AI 革命

下面是指令微调后 Minstral 8B 模型与其他模型的性能对比图。

开源版 OpenAI 再出神作:小模型吊打 Meta Llama 3,Ministral 系列开启边缘 AI 革命

适用于边缘计算,百万 token 售 0.1 美金

在实际应用中,大模型往往无法与小模型相比。越来越多的用户希望能够在本地进行关键应用程序的推理,例如设备翻译、无需联网的智能助理、自动机器人等。

正如官方博文所述,Les Minimraux 针对这些场景提供了高效计算和低延迟的解决方案。

当与 Mistral Large 等更大的模型结合使用时,les Ministraux 可以作为多步智能体工作流中的高效中介,进行函数调用。

通过微调,它们能够以极低的延迟和成本根据用户意图,跨多个上下文处理输入解析、任务路由和 API 调用。

定价

根据官方发布的数据,Minstral 8B 的输入输出定价为百万 token 0.1 美元,而 Minstral 3B 则为百万 token 0.04 美元。

开源版 OpenAI 再出神作:小模型吊打 Meta Llama 3,Ministral 系列开启边缘 AI 革命

曾是开源的 OpenAI,如今不再开源

自去年成立以来,Mistral 以开源的方式发布了多款与 OpenAI 相媲美的模型,获得了 AI 社区的广泛认可。

这家总部位于巴黎的公司由来自 Meta 和谷歌 DeepMind 的前员工创立。

开源版 OpenAI 再出神作:小模型吊打 Meta Llama 3,Ministral 系列开启边缘 AI 革命

几个月前,该公司以 60 亿美元的估值完成了新一轮融资,总额达 6.4 亿美元,并随之推出了一款与 GPT-4 可比的模型——Mistral Large 2。

此外,今年还推出了一个名为 Mixtral 8x22B 的专家混合模型。

该模型包括一个编码模型 Codestral 和一个用于数学推理及科学发现的模型。

开源版 OpenAI 再出神作:小模型吊打 Meta Llama 3,Ministral 系列开启边缘 AI 革命

然而,今年这家明星公司陷入了巨大争议,因为它变得不再那么开放。

开源版 OpenAI 再出神作:小模型吊打 Meta Llama 3,Ministral 系列开启边缘 AI 革命

年初传出消息称微软将收购 Mistral 部分股份并进行投资,这意味着其模型将在 Azure AI 上托管。

还有 Reddit 网友发现,Mistral 已从其官方网站上移除了对开源承诺的声明。

开源版 OpenAI 再出神作:小模型吊打 Meta Llama 3,Ministral 系列开启边缘 AI 革命

在某些模型的使用上,Mistral 开始收取费用,包括此次发布的模型也在其列。

对此,很多网友质疑其并非开源。

开源版 OpenAI 再出神作:小模型吊打 Meta Llama 3,Ministral 系列开启边缘 AI 革命

对于一家初创企业来说,始终坚持开源代码是一项巨大的挑战。比如 Stability AI 就是一个反例,它完全放弃了开源商业模式,转向收费策略。

而 Mistral 也面临相同的局面,为了持续研发高质量模型,只有这条路可走。

参考资料:

  • https://x.com/dchaplot/status/1846575384718172448

  • https://x.com/GuillaumeLample/status/1846566817650679966

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...