Gemma

Gemma

谷歌推出的新一代轻量级开放模型

工具介绍

Gemma是什么 Gemma是由谷歌DeepMind和谷歌的其他团队开发的一系列轻量级、先进的开放AI模型,基于与Gemini模型相同的技术,旨在帮助开发者和研究人员构建负责任的AI应用。Gemma模型系列包括两种权重规模的模型:Gemma 2B 和 Gemma 7B,提供预训练和指令微调版本,支持多种框架,如JAX、PyTorch和TensorFlow,以在不同设备上高效运行。6月28日,第二代模型已发布。 Gemma的官方入口 Gemma的官网主页: Gemma的Hugging Face模型: Gemma的Kaggle模型地址: Gemma的技术报告: 官方PyTorch实现GitHub代码库: Gemma的Google Colab运行地址: Gemma的主要特性 轻量级架构:Gemma模型设计为轻量级,便于在多种计算环境中运行,包括个人电脑和工作站。 开放模型:Gemma模型的权重是开放的,允许用户在遵守许可协议的情况下进行商业使用和分发。 预训练与指令微调:提供预训练模型和经过指令微调的版本,后者通过人类反馈强化学习(RLHF)来确保模型行为的负责任性。 多框架支持:Gemma支持JAX、PyTorch和TensorFlow等主要AI框架,通过Keras 3.0提供工具链,简化了推理和监督微调(SFT)过程。 安全性与可靠性:在设计时,Gemma遵循Google的AI原则,使用自动化技术过滤训练数据中的敏感信息,并进行了一系列安全评估,包括红队测试和对抗性测试。 性能优化:Gemma模型针对NVIDIA GPU和Google Cloud TPUs等硬件平台进行了优化,确保在不同设备上都能实现高性能。 社区支持:Google提供了Kaggle、Colab等平台的免费资源,以及Google Cloud的积分,鼓励开发者和研究人员利用Gemma进行创新和研究。 跨平台兼容性:Gemma模型可以在多种设备上运行,包括笔记本电脑、台式机、物联网设备和云端,支持广泛的AI功能。 负责任的AI工具包:Google还发布了Responsible Generative AI Toolkit,帮助开发者构建安全和负责任的AI应用,包括安全分类器、调试工具和应用指南。 Gemma的技术要点 模型架构:Gemma基于Transformer解码器构建,这是当前自然语言处理(NLP)领域最先进的模型架构之一。采用了多头注意力机制,允许模型在处理文本时同时关注多个部分。此外,Gemma还使用了旋转位置嵌入(RoPE)来代替绝对位置嵌入,以减少模型大小并提高效率。GeGLU激活函数取代了标准的ReLU非线性激活,以及在每个Transformer子层的输入和输出都进行了归一化处理。 训练基础设施:Gemma模型在Google的TPUv5e上进行训练,这是一种专为机器学习设计的高性能计算平台。通过在多个Pod(芯片集群)上进行模型分片和数据复制,Gemma能够高效地利用分布式计算资源。 预训练数据:Gemma模型在大量英语数据上进行预训练(2B模型大约2万亿个token的数据上预训练,而7B模型则基于6万亿个token),这些数据主要来自网络文档、数学和代码。预训练数据经过过滤,以减少不想要或不安全的内容,同时确保数据的多样性和质量。 微调策略:Gemma模型通过监督式微调(SFT)和基于人类反馈的强化学习(RLHF)进行微调。这包括使用合成的文本对和人类生成的提示响应对,以及基于人类偏好数据训练的奖励模型。 安全性和责任:Gemma在设计时考虑了模型的安全性和责任,包括在预训练阶段对数据进行过滤,以减少敏感信息和有害内容的风险。此外,Gemma还通过了一系列的安全性评估,包括自动化基准测试和人类评估,以确保模型在实际应用中的安全性。 性能评估:Gemma在多个领域进行了广泛的性能评估,包括问答、常识推理、数学和科学问题解答以及编码任务。Gemma模型与同样规模或更大规模的开放模型进行了性能对比,在MMLU、MBPP等18个基准测试中,有11个测试结果超越了Llama-13B或Mistral-7B等模型。 开放性和可访问性:Gemma模型以开源的形式发布,提供了预训练和微调后的检查点,以及推理和部署的开源代码库。这使得研究人员和开发者能够访问和利用这些先进的语言模型,推动AI领域的创新。 常见问题 Gemma一词的含义是什么?

相关工具

NONE

Model Scope 魔搭社区

免费 国内
共享 · 共创 · 共进,构建持续创新的 AI 开源生态
Coze

Coze

海量AI智能体免费用,已接入DeepSeek满血版
Ollama

Ollama

本地运行Llama和其他大语言模型
无阶未来

无阶未来

AI应用与弹性算网平台
Llama 3

Llama 3

Meta最新开源推出的新一代大模型
豆包大模型

豆包大模型

字节跳动推出的AI大模型家族,包括视频生成、语音视觉、通用语言模型等
Sora

Sora

OpenAI推出的AI视频生成模型
腾讯混元大模型

腾讯混元大模型

腾讯研发的大语言模型,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力
书生大模型

书生大模型

上海人工智能实验室推出的系列AI模型
GPT-4

GPT-4

OpenAI旗下最新的GPT-4模型
DALL·E 3

DALL·E 3

OpenAI旗下最新的图像生成模型
文心大模型

文心大模型

百度推出的产业级知识增强大模型
LLaMA

LLaMA

Meta(Facebook)推出的AI大语言模型
Auto-GPT

Auto-GPT

爆火的实现GPT-4完全自主的实验性开源项目,GitHub超10万星
Jan

Jan

本地运行大模型并进行AI对话的工具,免费开源
AgentGPT

AgentGPT

在浏览器中组装、配置和部署自主人工智能的开源项目
魔搭社区

魔搭社区

阿里达摩院推出的AI模型社区,超过300+开源AI模型
悟道

悟道

智源“悟道”大模型,中国首个+世界最大人工智能大模型