大数跨境

谷歌 Gemma 3n 正式登场:端侧多模态 AI 新标杆,小内存迸发大能量

谷歌 Gemma 3n 正式登场:端侧多模态 AI 新标杆,小内存迸发大能量 元龙数字智能科技
2025-06-28
4
导读:谷歌 Gemma 3n 正式登场谷歌 Gemma 3n正式登场小内存迸发大能量当地时间 6 月 26 日,谷歌

谷歌 Gemma 3n 正式登场

谷歌 Gemma 3n

正式登场

小内存迸发大能量

当地时间 6 月 26 日,谷歌正式发布了 Gemma 3n 完整版。早在 5 月的 Google I/O 大会上,Gemma 3n 首次亮相并开启预览,如今正式版的发布,在开发者群体中引起了不小的轰动。一位开发者兴奋地表示:“迫不及待地想看看这些 Android 的性能!”

Gemma 系列作为谷歌推出的开源大模型,与谷歌的封闭专有模型 Gemini 有着不同的定位。Gemma 面向开发者,可供下载和修改,为开发者提供了更多定制和创新的空间;而 Gemini 则更注重性能与商业化。此次发布的 Gemma 3n 更是具备了强大的多模态能力,能输入图像、音频和视频,并支持文本输出,关键是它还能在最低 2GB 内存的设备上运行,这对于硬件配置有限的设备来说,无疑是个福音,并且在编程与推理等任务上据称表现更佳。

Gemma 3n 在设计上原生支持图像、音频、视频和文本的输入,以及文本输出。用户可以通过多种方式与模型进行交互,无论是上传一张图片询问其中的内容,播放一段音频让模型识别,还是输入一段视频让其分析,亦或是直接输入文本进行对话,Gemma 3n 都能给出相应的文本回答。这种多模态的交互方式,极大地拓展了模型的应用场景,使其更贴近人们日常获取信息和交流的方式。

在运行效率方面,Gemma 3n 提供了两种基于 “有效参数” 的尺寸:E2B 和 E4B。尽管其原始参数量分别为 5B 和 8B,但通过架构创新,它们运行时的内存占用量仅相当于传统的 2B 和 4B 参数模型。最低仅需 2GB(E2B)和 3GB(E4B)内存即可运行。这一优化使得在一些内存资源有限的设备,如老旧手机、低端平板等,也能够流畅地运行 Gemma 3n,实现强大的 AI 功能,让更多用户能够享受到先进的 AI 技术带来的便利。

在基准测试中,Gemma 3n 的 E4B 模型表现亮眼,成为首个在参数规模低于 10B 的前提下,LMArena 测评得分突破 1300 的模型。这一成绩超过了 Llama 4 Maverick 17B、GPT 4.1-nano、Phi-4 等模型。这表明 Gemma 3n 在处理各种任务时,具有较高的准确性和性能表现,在模型性能的竞争中脱颖而出,为开发者和用户提供了更强大的工具

Django Web 联合创建者 Simon Willison 对 Gemma 3n 进行了测试。他在 Mac 笔记本电脑上分别运行了两个版本。在 Ollama 上,4B 型号的 7.5GB 版本模型绘制了一幅画,随后使用 15.74GB 的 bfloat16 版本模型又得到了另一幅图。Willison 指出,“7.5GB 和 15GB 模型量化之间存在如此显著的视觉差异。” 同时,他还提到 Ollama 版本似乎尚不支持图像或音频输入,但是 mlx-vlm 版本可以。当让模型描述图片时,模型却误认成了一张化学图,将其描述为 “该图为卡通风格的插图,描绘了浅蓝色背景下的分子结构。该结构由多个不同颜色和形状的元素组成,并通过弯曲的黑线连接起来。” 这说明模型在图像识别和理解方面虽然有一定能力,但对于复杂或特殊图像的理解还需要进一步优化。

网友 pilooch 称赞该模型完全兼容此前基于 Gemma3 的所有操作。他还分享了使用体验:“我将其接入视觉语言模型微调脚本后,程序顺利启动(使用 HF Transformer 代码)。在单 GPU 运行 LoRa 微调时,E4B 模型在批量大小为 1 的情况下仅占用 18GB VRAM,而 Gemma-4B 需要 21GB。DeepMind 推出的 Gemma3 系列真不错,稳居开源视觉语言模型榜首。” 也有开发者表示:“我一直在 AI Studio 里试用 E4B,效果非常好,比 8B 型号的预期要好得多。我正在考虑把它安装在 VPS 上,这样就有了其他选择,不用再使用那些昂贵的 API 了。” 在开发者 RedditPolluter 的测试中,E2B-it 能够使用 Hugging Face MCP,但其不得不将上下文长度限制从默认的 “~4000” 增加到 “超过”,以防止模型陷入无限的搜索循环,不过它能够使用搜索功能获取一些较新型号的信息。当然,也有开发者对小模型的实际用处表示怀疑,有开发者称:“我做过很多实验,任何小于 27B 的模型基本上都用不了,除非当玩具用。对于小模型,我只能说它们有时能给出不错的答案,但这还不够。” 但也有网友提出不同看法,“我发现微型模型(< 5B 参数)的最佳用例是作为没有 WiFi 时的参考工具。我在飞机上写代码时,一直在 MacBook Air 上使用 Qwen 来代替谷歌搜索,它在询问有关语法和文档的基本问题时非常有效。”

谷歌特别指出,Gemma 3n 高效能的核心在于全新的 MatFormer(Matryoshka Transformer)架构,这是一种为弹性推理而设计的嵌套式 Transformer。其设计灵感类似于 “俄罗斯套娃”,一个较大的模型内部嵌套着一个较小但完整的子模型。例如,在对 4B 有效参数(E4B)模型进行 MatFormer 架构训练的过程中,系统会同时在其中优化一个 2B 有效参数(E2B)子模型。这种设计将 “套娃式表示学习”(Matryoshka Representation Learning)的理念,从嵌入层扩展到了整个 Transformer 架构的各个组件,大幅提升了模型在不同资源环境下的灵活性与适应性。

这项架构设计为开发者带来了两大关键能力:一是预提取模型,开箱即用。开发者可根据应用场景自由选择完整的 E4B 主模型获得更强性能,也可以直接使用已经预提取好的 E2B 子模型。在保证准确率的前提下,E2B 实现了高达 2 倍的推理速度,尤其适合边缘设备或算力受限场景。二是 Mix-n-Match 定制模型。针对不同硬件资源的限制,开发者可以通过 Mix-n-Match 方法,在 E2B 与 E4B 之间自由定制模型大小。该方法通过灵活调整每层前馈网络的隐藏维度(如从 8192 调整到 16384),并选择性跳过部分层,从而构建出多种不同规模的模型。与此同时,谷歌还推出了辅助工具 MatFormer Lab,方便开发者基于多个基准测试结果(如 MMLU)快速挑选并提取出性能最优的模型配置。谷歌表示,MatFormer 架构还为 “弹性推理” 奠定了基础。尽管这一能力尚未在本次发布的实现中正式上线,但它的设计理念已初步成型:单个部署的 E4B 模型,未来将能在运行时动态切换 E4B 与 E2B 的推理路径,根据当前任务类型和设备负载,实时优化性能表现与内存占用。

在最新的 Gemma 3n 模型中,谷歌引入了名为 Per-Layer Embeddings(逐层嵌入,简称 PLE)的创新机制。该机制专为端侧部署而设计优化,可显著提高模型质量,同时不会增加设备加速器(如 GPU/TPU)所需的高速内存占用。由于 E2B 和 E4B 模型的总参数数量分别为 5B 和 8B,而 PLE 允许很大一部分参数(即分布在各层的嵌入参数)在 CPU 上高效加载和计算。这意味着只有核心 Transformer 权重(E2B 约为 2B,E4B 约为 4B)需要存储在通常较为受限的加速器内存 (VRAM) 中。这种方式极大地提升了内存使用效率,使得模型在有限的硬件资源下能够更好地运行。

在许多先进的端侧多模态应用中,处理长序列输入(如音频、视频流所生成的内容)已成为核心需求。为此,Gemma 3n 引入了 KV Cache Sharing(键值缓存共享)机制,加快了长文本推理中 “首个 Token” 的生成速度,尤其适用于流式响应场景。具体而言,KV Cache Sharing 对模型的 Prefill 阶段进行了优化:中间层中,来自局部与全局注意力机制的中间层 Key 与 Value 会直接共享给所有上层结构。与 Gemma 3 4B 相比,这使 Prefill 性能获得高达 2 倍的提升。这一机制的引入,使得 Gemma 3n 在处理长音频、长视频等长上下文内容时,能够更加高效地生成响应,提升了用户体验。

Gemma 3n 推出了全新高效的视觉编码器:MobileNet-V5-300M,来提升边缘设备上的多模态任务表现。MobileNet-V5 支持多种分辨率(256×256、512×512、768×768),方便开发者根据需求平衡性能与画质。它在大规模多模态数据上进行训练,擅长处理多种图像和视频理解任务。吞吐率方面,其在 Google Pixel 设备上可实现每秒最高 60 帧的实时处理速度。这一性能突破得益于多项架构创新,包括基于 MobileNet-V4 的先进模块、能高达 10 倍扩的深度金字塔架构,以及多尺度融合视觉语言模型适配器等。相较于 Gemma 3 中未蒸馏的 SoViT,MobileNet-V5-300M 在 Google Pixel Edge TPU 上实现了最高 13 倍速度提升(量化后),参数减少 46%,内存占用缩小 4 倍,同时准确率大幅提升。这一视觉编码器的升级,使得 Gemma 3n 在图像和视频处理方面的能力得到了极大提升,为多模态应用提供了更强大的视觉支持。

音频处理方面,Gemma 3n 搭载了基于 Universal Speech Model(USM)的先进音频编码器,可对每 160 毫秒的语音生成一个 token(约每秒 6 个 token),并将其作为输入集成至语言模型中,从而提供更加细致的语音上下文表示,这为端侧应用解锁了语音识别和语音翻译功能。据悉,Gemma 3n 在英语与西班牙语、法语、意大利语、葡萄牙语之间的转换效果尤为出色。同时,在进行语音翻译任务时,结合 “思维链式提示” 策略,可进一步提升翻译质量与稳定性。这使得用户在使用 Gemma 3n 时,能够通过语音与模型进行交互,实现语音输入和翻译等功能,在跨语言交流和语音指令识别等场景中具有重要应用价值。

Gemma 3n 的发布为众多领域带来了新的发展机遇。在移动应用开发领域,开发者可以利用 Gemma 3n 的多模态能力,开发出更加智能的应用程序。例如,开发一款具备图像识别、语音翻译和文本交互功能的旅行助手应用,帮助用户在国外旅行时,通过拍照识别路标、菜单等信息,实时进行语音翻译,与当地人交流,同时还能通过文本输入查询旅游攻略等。在智能硬件领域,智能音箱、智能摄像头等设备可以集成 Gemma 3n,实现更强大的本地智能处理能力。智能音箱可以更好地理解用户的语音指令,不仅能准确播放音乐、查询信息,还能通过语音翻译功能与不同语言的用户交流;智能摄像头可以实时分析视频画面,进行人物识别、行为分析等,并且无需将大量数据上传至云端,保护了用户隐私。在教育领域,Gemma 3n 可以用于开发智能学习辅助工具,帮助学生通过图像、音频等多种方式学习知识,例如识别数学公式图片进行解答,朗读英语文章并进行翻译和讲解等。

谷歌 Gemma 3n 的正式发布,为端侧 AI 的发展注入了新的活力。其强大的多模态能力、高效的运行效率以及创新的技术架构,为开发者提供了更强大的工具,也为用户带来了更多的可能性。尽管在实际应用中还存在一些需要改进的地方,但随着技术的不断发展和优化,Gemma 3n 有望在未来的 AI 领域中发挥重要作用,推动各个行业的智能化升级。开发者们也将基于 Gemma 3n 不断探索和创新,创造出更多实用且有趣的应用,让 AI 技术更好地服务于人们的生活和工作。



END



【声明】内容源于网络
0
0
元龙数字智能科技
永做第一 使命第一 向善第一
内容 901
粉丝 0
元龙数字智能科技 永做第一 使命第一 向善第一
总阅读2.5k
粉丝0
内容901