谷歌 Gemma 3n 正式登场：端侧多模态 AI 新标杆，小内存迸发大能量- 大数跨境

首页

谷歌 Gemma 3n 正式登场：端侧多模态 AI 新标杆，小内存迸发大能量

元龙数字智能科技

2025-06-28

导读：谷歌 Gemma 3n 正式登场谷歌 Gemma 3n正式登场小内存迸发大能量当地时间 6 月 26 日，谷歌

谷歌 Gemma 3n 正式登场

谷歌 Gemma 3n

正式登场

小内存迸发大能量

当地时间 6 月 26 日，谷歌正式发布了 Gemma 3n 完整版。早在 5 月的 Google I/O 大会上，Gemma 3n 首次亮相并开启预览，如今正式版的发布，在开发者群体中引起了不小的轰动。一位开发者兴奋地表示：“迫不及待地想看看这些 Android 的性能！”

Gemma 系列作为谷歌推出的开源大模型，与谷歌的封闭专有模型 Gemini 有着不同的定位。Gemma 面向开发者，可供下载和修改，为开发者提供了更多定制和创新的空间；而 Gemini 则更注重性能与商业化。此次发布的 Gemma 3n 更是具备了强大的多模态能力，能输入图像、音频和视频，并支持文本输出，关键是它还能在最低 2GB 内存的设备上运行，这对于硬件配置有限的设备来说，无疑是个福音，并且在编程与推理等任务上据称表现更佳。

Gemma 3n 在设计上原生支持图像、音频、视频和文本的输入，以及文本输出。用户可以通过多种方式与模型进行交互，无论是上传一张图片询问其中的内容，播放一段音频让模型识别，还是输入一段视频让其分析，亦或是直接输入文本进行对话，Gemma 3n 都能给出相应的文本回答。这种多模态的交互方式，极大地拓展了模型的应用场景，使其更贴近人们日常获取信息和交流的方式。

在运行效率方面，Gemma 3n 提供了两种基于 “有效参数” 的尺寸：E2B 和 E4B。尽管其原始参数量分别为 5B 和 8B，但通过架构创新，它们运行时的内存占用量仅相当于传统的 2B 和 4B 参数模型。最低仅需 2GB（E2B）和 3GB（E4B）内存即可运行。这一优化使得在一些内存资源有限的设备，如老旧手机、低端平板等，也能够流畅地运行 Gemma 3n，实现强大的 AI 功能，让更多用户能够享受到先进的 AI 技术带来的便利。

在基准测试中，Gemma 3n 的 E4B 模型表现亮眼，成为首个在参数规模低于 10B 的前提下，LMArena 测评得分突破 1300 的模型。这一成绩超过了 Llama 4 Maverick 17B、GPT 4.1-nano、Phi-4 等模型。这表明 Gemma 3n 在处理各种任务时，具有较高的准确性和性能表现，在模型性能的竞争中脱颖而出，为开发者和用户提供了更强大的工具。

Django Web 联合创建者 Simon Willison 对 Gemma 3n 进行了测试。他在 Mac 笔记本电脑上分别运行了两个版本。在 Ollama 上，4B 型号的 7.5GB 版本模型绘制了一幅画，随后使用 15.74GB 的 bfloat16 版本模型又得到了另一幅图。Willison 指出，“7.5GB 和 15GB 模型量化之间存在如此显著的视觉差异。” 同时，他还提到 Ollama 版本似乎尚不支持图像或音频输入，但是 mlx-vlm 版本可以。当让模型描述图片时，模型却误认成了一张化学图，将其描述为 “该图为卡通风格的插图，描绘了浅蓝色背景下的分子结构。该结构由多个不同颜色和形状的元素组成，并通过弯曲的黑线连接起来。” 这说明模型在图像识别和理解方面虽然有一定能力，但对于复杂或特殊图像的理解还需要进一步优化。

网友 pilooch 称赞该模型完全兼容此前基于 Gemma3 的所有操作。他还分享了使用体验：“我将其接入视觉语言模型微调脚本后，程序顺利启动（使用 HF Transformer 代码）。在单 GPU 运行 LoRa 微调时，E4B 模型在批量大小为 1 的情况下仅占用 18GB VRAM，而 Gemma-4B 需要 21GB。DeepMind 推出的 Gemma3 系列真不错，稳居开源视觉语言模型榜首。” 也有开发者表示：“我一直在 AI Studio 里试用 E4B，效果非常好，比 8B 型号的预期要好得多。我正在考虑把它安装在 VPS 上，这样就有了其他选择，不用再使用那些昂贵的 API 了。” 在开发者 RedditPolluter 的测试中，E2B-it 能够使用 Hugging Face MCP，但其不得不将上下文长度限制从默认的 “~4000” 增加到 “超过”，以防止模型陷入无限的搜索循环，不过它能够使用搜索功能获取一些较新型号的信息。当然，也有开发者对小模型的实际用处表示怀疑，有开发者称：“我做过很多实验，任何小于 27B 的模型基本上都用不了，除非当玩具用。对于小模型，我只能说它们有时能给出不错的答案，但这还不够。” 但也有网友提出不同看法，“我发现微型模型（< 5B 参数）的最佳用例是作为没有 WiFi 时的参考工具。我在飞机上写代码时，一直在 MacBook Air 上使用 Qwen 来代替谷歌搜索，它在询问有关语法和文档的基本问题时非常有效。”

谷歌特别指出，Gemma 3n 高效能的核心在于全新的 MatFormer（Matryoshka Transformer）架构，这是一种为弹性推理而设计的嵌套式 Transformer。其设计灵感类似于 “俄罗斯套娃”，一个较大的模型内部嵌套着一个较小但完整的子模型。例如，在对 4B 有效参数（E4B）模型进行 MatFormer 架构训练的过程中，系统会同时在其中优化一个 2B 有效参数（E2B）子模型。这种设计将 “套娃式表示学习”（Matryoshka Representation Learning）的理念，从嵌入层扩展到了整个 Transformer 架构的各个组件，大幅提升了模型在不同资源环境下的灵活性与适应性。

这项架构设计为开发者带来了两大关键能力：一是预提取模型，开箱即用。开发者可根据应用场景自由选择完整的 E4B 主模型获得更强性能，也可以直接使用已经预提取好的 E2B 子模型。在保证准确率的前提下，E2B 实现了高达 2 倍的推理速度，尤其适合边缘设备或算力受限场景。二是 Mix-n-Match 定制模型。针对不同硬件资源的限制，开发者可以通过 Mix-n-Match 方法，在 E2B 与 E4B 之间自由定制模型大小。该方法通过灵活调整每层前馈网络的隐藏维度（如从 8192 调整到 16384），并选择性跳过部分层，从而构建出多种不同规模的模型。与此同时，谷歌还推出了辅助工具 MatFormer Lab，方便开发者基于多个基准测试结果（如 MMLU）快速挑选并提取出性能最优的模型配置。谷歌表示，MatFormer 架构还为 “弹性推理” 奠定了基础。尽管这一能力尚未在本次发布的实现中正式上线，但它的设计理念已初步成型：单个部署的 E4B 模型，未来将能在运行时动态切换 E4B 与 E2B 的推理路径，根据当前任务类型和设备负载，实时优化性能表现与内存占用。

在最新的 Gemma 3n 模型中，谷歌引入了名为 Per-Layer Embeddings（逐层嵌入，简称 PLE）的创新机制。该机制专为端侧部署而设计优化，可显著提高模型质量，同时不会增加设备加速器（如 GPU/TPU）所需的高速内存占用。由于 E2B 和 E4B 模型的总参数数量分别为 5B 和 8B，而 PLE 允许很大一部分参数（即分布在各层的嵌入参数）在 CPU 上高效加载和计算。这意味着只有核心 Transformer 权重（E2B 约为 2B，E4B 约为 4B）需要存储在通常较为受限的加速器内存 (VRAM) 中。这种方式极大地提升了内存使用效率，使得模型在有限的硬件资源下能够更好地运行。

在许多先进的端侧多模态应用中，处理长序列输入（如音频、视频流所生成的内容）已成为核心需求。为此，Gemma 3n 引入了 KV Cache Sharing（键值缓存共享）机制，加快了长文本推理中 “首个 Token” 的生成速度，尤其适用于流式响应场景。具体而言，KV Cache Sharing 对模型的 Prefill 阶段进行了优化：中间层中，来自局部与全局注意力机制的中间层 Key 与 Value 会直接共享给所有上层结构。与 Gemma 3 4B 相比，这使 Prefill 性能获得高达 2 倍的提升。这一机制的引入，使得 Gemma 3n 在处理长音频、长视频等长上下文内容时，能够更加高效地生成响应，提升了用户体验。

Gemma 3n 推出了全新高效的视觉编码器：MobileNet-V5-300M，来提升边缘设备上的多模态任务表现。MobileNet-V5 支持多种分辨率（256×256、512×512、768×768），方便开发者根据需求平衡性能与画质。它在大规模多模态数据上进行训练，擅长处理多种图像和视频理解任务。吞吐率方面，其在 Google Pixel 设备上可实现每秒最高 60 帧的实时处理速度。这一性能突破得益于多项架构创新，包括基于 MobileNet-V4 的先进模块、能高达 10 倍扩的深度金字塔架构，以及多尺度融合视觉语言模型适配器等。相较于 Gemma 3 中未蒸馏的 SoViT，MobileNet-V5-300M 在 Google Pixel Edge TPU 上实现了最高 13 倍速度提升（量化后），参数减少 46%，内存占用缩小 4 倍，同时准确率大幅提升。这一视觉编码器的升级，使得 Gemma 3n 在图像和视频处理方面的能力得到了极大提升，为多模态应用提供了更强大的视觉支持。

音频处理方面，Gemma 3n 搭载了基于 Universal Speech Model（USM）的先进音频编码器，可对每 160 毫秒的语音生成一个 token（约每秒 6 个 token），并将其作为输入集成至语言模型中，从而提供更加细致的语音上下文表示，这为端侧应用解锁了语音识别和语音翻译功能。据悉，Gemma 3n 在英语与西班牙语、法语、意大利语、葡萄牙语之间的转换效果尤为出色。同时，在进行语音翻译任务时，结合 “思维链式提示” 策略，可进一步提升翻译质量与稳定性。这使得用户在使用 Gemma 3n 时，能够通过语音与模型进行交互，实现语音输入和翻译等功能，在跨语言交流和语音指令识别等场景中具有重要应用价值。

Gemma 3n 的发布为众多领域带来了新的发展机遇。在移动应用开发领域，开发者可以利用 Gemma 3n 的多模态能力，开发出更加智能的应用程序。例如，开发一款具备图像识别、语音翻译和文本交互功能的旅行助手应用，帮助用户在国外旅行时，通过拍照识别路标、菜单等信息，实时进行语音翻译，与当地人交流，同时还能通过文本输入查询旅游攻略等。在智能硬件领域，智能音箱、智能摄像头等设备可以集成 Gemma 3n，实现更强大的本地智能处理能力。智能音箱可以更好地理解用户的语音指令，不仅能准确播放音乐、查询信息，还能通过语音翻译功能与不同语言的用户交流；智能摄像头可以实时分析视频画面，进行人物识别、行为分析等，并且无需将大量数据上传至云端，保护了用户隐私。在教育领域，Gemma 3n 可以用于开发智能学习辅助工具，帮助学生通过图像、音频等多种方式学习知识，例如识别数学公式图片进行解答，朗读英语文章并进行翻译和讲解等。

谷歌 Gemma 3n 的正式发布，为端侧 AI 的发展注入了新的活力。其强大的多模态能力、高效的运行效率以及创新的技术架构，为开发者提供了更强大的工具，也为用户带来了更多的可能性。尽管在实际应用中还存在一些需要改进的地方，但随着技术的不断发展和优化，Gemma 3n 有望在未来的 AI 领域中发挥重要作用，推动各个行业的智能化升级。开发者们也将基于 Gemma 3n 不断探索和创新，创造出更多实用且有趣的应用，让 AI 技术更好地服务于人们的生活和工作。

END

【声明】内容源于网络

元龙数字智能科技

永做第一使命第一向善第一

内容 901

粉丝 0

元龙数字智能科技永做第一使命第一向善第一

总阅读2.5k

粉丝0

内容901