什么是Gemma
Gemma是谷歌DeepMind及其其他团队开发的一系列轻量级、先进的开放AI模型,基于与Gemini模型相同的技术,旨在为开发者和研究人员提供构建负责任AI应用的支持。Gemma模型系列包括两种权重规模的版本:Gemma 2B和Gemma 7B,提供预训练以及指令微调的选项,并支持多种框架,如JAX、PyTorch和TensorFlow,从而在不同设备上实现高效运行。第二代模型Gemma 2已于6月28日发布。
Gemma的官方网站
- Gemma的官网主页:https://ai.google.dev/gemma?hl=zh-cn
- Gemma的Hugging Face模型:https://huggingface.co/models?search=google/gemma
- Gemma的Kaggle模型地址:https://www.kaggle.com/models/google/gemma/code/
- Gemma的技术报告:https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf
- 官方PyTorch实现GitHub代码库:https://github.com/google/gemma_pytorch
- Gemma的Google Colab运行地址:https://colab.research.google.com/github/google/generative-ai-docs/blob/main/site/en/gemma/docs/lora_tuning.ipynb
Gemma的核心特点
- 轻量级设计:Gemma模型被设计为轻量,以便能在多种计算环境下运行,包括个人电脑和工作站。
- 开放模型:Gemma模型的权重是开放的,用户在遵循许可协议的前提下可进行商业使用和分发。
- 预训练与指令微调:提供预训练及经过指令微调的版本,后者通过人类反馈强化学习(RLHF)确保模型行为的负责任性。
- 多种框架支持:Gemma兼容JAX、PyTorch和TensorFlow等主流AI框架,并通过Keras 3.0提供工具链,简化推理和监督微调(SFT)过程。
- 安全性和可靠性:设计Gemma时遵循Google的AI原则,利用自动化技术过滤训练数据中的敏感信息,并进行了多种安全评估,如红队测试和对抗性测试。
- 性能优化:Gemma模型针对NVIDIA GPU和Google Cloud TPUs等硬件平台进行了优化,确保其在不同设备上实现高性能。
- 社区支持:Google通过Kaggle、Colab等平台提供免费资源,并给予Google Cloud的积分,鼓励开发者和研究人员利用Gemma进行创新和研究。
- 跨平台兼容性:Gemma支持多种设备运行,包括笔记本电脑、桌面电脑、物联网设备和云端,功能覆盖广泛的AI任务。
- 负责任的AI工具包:Google发布了Responsible Generative AI Toolkit,帮助开发者建立安全且负责任的AI应用,提供安全分类器、调试工具和应用指南。
Gemma的技术亮点
- 模型架构:Gemma基于Transformer解码器构建,这是目前自然语言处理(NLP)领域最前沿的架构之一。它采用了多头注意力机制,使得模型在处理文本时可以关注多个部分。同时,Gemma使用旋转位置嵌入(RoPE)替换绝对位置嵌入,以减小模型规模并提高效率。GeGLU激活函数替代标准的ReLU非线性激活,并在每个Transformer子层的输入和输出进行了归一化处理。
- 训练基础设施:Gemma模型在专为机器学习设计的高性能计算平台TPUv5e上进行训练。通过在多个Pod(芯片集群)上进行模型分片和数据复制,Gemma能够高效利用分布式计算资源。
- 预训练数据:Gemma模型在海量英语数据上进行预训练(2B模型约为2万亿个token,而7B模型则基于6万亿个token),这些数据主要源自网络文档、数学和代码。针对数据进行了过滤,以减少不必要或不安全内容的风险,同时确保了数据的多样性和质量。
- 微调策略:Gemma通过监督式微调(SFT)和基于人类反馈的强化学习(RLHF)进行微调。这包括合成文本对和人类生成提示响应对,以及基于人类偏好数据训练的奖励模型。
- 安全性与责任:在设计Gemma时考虑到模型的安全性与责任,包括在预训练阶段对数据进行过滤,以降低敏感信息和有害内容的风险。此外,Gemma还通过一系列安全性评估,包括自动化基准测试和人类评估,以确保模型在实际应用中的安全性。
- 性能评估:Gemma在众多领域进行了广泛的性能评估,包括问答、常识推理、数学和科学问题解答以及编码任务。Gemma模型与同规模或更大规模的开放模型进行了性能对比,在MMLU、MBPP等18个基准测试中,有11项测试超越了如Llama-13B或Mistral-7B等模型。
- 开放性和可访问性:Gemma模型以开源形式发布,提供了预训练和微调后的检查点,以及推理和部署的开源代码库,便于研究人员和开发者访问并利用这些先进的语言模型,推动AI领域的创新。
常见问题
“Gemma”一词的含义是什么?
“Gemma”在拉丁语中意为“宝石”。
Gemma是开源的吗?
Gemma是一个开放的开源模型,用户可以在Hugging Face上查看和下载其模型。
Gemma模型的参数量是多少?
Gemma目前提供20亿和70亿参数量的模型,后续预计还会推出其他变体。
相关导航
暂无评论...