Loading...

27B 显存需求 54 → 14.1GB:谷歌发布 Gemma 3 QAT AI 模型,RTX 3090 显卡可运行

GoodNav 4 月 19 日报道,谷歌公司于昨日(4 月 18 日)发布了一篇博文,推出了量化感知训练(QAT)优化版的 Gemma 3 模型,在保持高质量的同时,显著降低了内存需求。

谷歌上个月发布了 Gemma 3 开源模型,能够在单台 NVIDIA H100 GPU 上以 BFloat16(BF16)精度高效运行。

27B 显存需求 54 → 14.1GB:谷歌发布 Gemma 3 QAT AI 模型,RTX 3090 显卡可运行

根据博文,谷歌为了满足用户需求,致力于使 Gemma 3 的强大性能能够适配普通硬件。量化技术是关键,通过降低模型参数的数值精度(例如从 BF16 的 16 位降至 int4 的 4 位),类似于图像压缩减少颜色数量,从而大幅减少数据存储量。

以 int4 量化为例,Gemma 3 27B 显存需求从 54GB 大幅减少至 14.1GB,而 Gemma 3 12B 则从 24GB 降至 6.6GB;Gemma 3 1B 仅需 0.5GB 显存。

27B 显存需求 54 → 14.1GB:谷歌发布 Gemma 3 QAT AI 模型,RTX 3090 显卡可运行

这意味着用户可以在桌面(NVIDIA RTX 3090)或笔记本(NVIDIA RTX 4060 Laptop GPU)上运行强大的 AI 模型,甚至手机也能支持小型模型。

为了避免量化导致性能下降,谷歌采用了量化感知训练(QAT)技术,在训练过程中模拟低精度运算,确保模型在压缩后仍能保持高准确性。Gemma 3 QAT 模型在约 5000 步训练中,将困惑度下降减少了 54%。

Ollama、LM Studio 和 llama.cpp 等主流平台已集成该模型,用户可以通过 Hugging Face 和 Kaggle 获取官方 int4 和 Q4_0 模型,轻松在 Apple Silicon 或 CPU 上运行。此外,Gemmaverse 社区提供了更多量化选项,以满足不同需求。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...