

Whisk中免费使用Google最新Imagen 4图片模型

路上侠客

2025-06-17

导读：今天我们来体验 Google Labs 中的 Whisk (现已更名为 ImageFX)，它允许用户免费使用

今天我们来体验 Google Labs 中的 Whisk (现已更名为 ImageFX)，它允许用户免费使用 Google 最新的 Imagen 3 (甚至可能是 Imagen 4 的部分能力) 模型进行图片和短视频生成。

官方体验网址：https://labs.google/fx/zh/tools/whisk (可能重定向到 ImageFX)

ImageFX 一次通常会生成 4 张图片供用户选择。

生成 AI 绘画提示词

为了充分发挥 Imagen 模型的潜力，一个好的提示词非常重要。我们可以使用“路上侠客”定制的 AI 绘图提示词工具来辅助生成高质量的提示词。

提示词生成工具链接：https://roadheroai.com/veo2视频提示词生成器/

生成提示词后，点击复制即可。

使用中文提示词测试 ImageFX

我们将生成的中文提示词输入到 ImageFX (Whisk) 中进行图片生成。示例提示词：

“一个关于“一个成了精的粽子”的视频，主要内容是“在人间的街道上闲逛”。视觉风格：电影感。场景设定在繁华的夜市。主要动作为“探索与发现”。镜头类型包括：广角镜头。摄影机运动有：跟镜头, 无人机视角。拍摄角度可采用：鸟瞰视角。光照和氛围：霓虹闪烁的都市夜景。色彩风格：梦幻般的柔和色彩。宽高比：9:16竖屏。”

ImageFX 生成的图片效果：

细节图：

生成动态视频 (短动画)

ImageFX (Whisk) 还支持基于静态图片生成短时动态视频（GIF 或 MP4），免费用户可能有次数限制（例如 10 次）。

基于上述图片，输入动态化提示词：“粽子在向前跳跃，人群在动”。

除了导出视频，还可以导出 GIF 动图格式。

中文与英文提示词效果对比

测试发现，使用中文提示词时，ImageFX (Imagen 3/4) 的生成效果与预期可能有较大偏差，这可能是由于模型对中文复杂语义的理解尚有不足。作为对比，使用相同的核心概念，在“即梦”等国内模型中生成的图片效果可能更佳。

即梦使用相同中文提示词生成的图片：

即梦使用相同中文提示词生成的视频截图：

为了进一步验证，我们尝试使用纯英文提示词在 ImageFX (Whisk) 中生成图片：

“Surreal hyperrealistic shot from an FPV ACTION CAMERA POV darting through a chaotic American football game. Humans and massive gorillas, helmets strapped awkwardly, clash on the same field under blistering stadium lights. The camera weaves between pounding cleats and fists. A gorilla barrels through a line, cradling the ball, tossing it overhead. Sweat and dirt fly. Filmed in 16mm film.”

英文提示词生成的图片效果：

细节图：

可以看到，使用英文提示词时，ImageFX 的生成效果明显提升，更符合预期。

再基于此英文图片生成动态视频，动态化提示词：“猩猩动起来，人也动起来，灯光闪烁”。

补充知识：Google Imagen 4 (或 Imagen 3 持续迭代) 介绍

基本信息

Imagen 4 是 Google DeepMind 在 2025 年 5 月 21 日的 Google I/O 2025 开发者大会上重点介绍的最新一代文生图 AI 模型 (此前的 Imagen 3 也在持续迭代和能力增强中)。这些模型进一步巩固了谷歌在生成式 AI 领域的领先地位。

(注：行业内对 Imagen 的版本号有时存在混用，ImageFX 工具可能基于 Imagen 3 的最新版本或 Imagen 4 的早期能力。)

性能提升

生成速度：
Imagen 4 号称比上一代（可能指早期 Imagen 3 版本）快 10 倍，显著提高图像生成效率。
图像质量：
生成的图像更精致，细节更丰富，AI 生成痕迹更少，效果更接近真实、自然。

功能特点

文本渲染能力：
能够更好地在图像中生成文字，并进行合理的排版设计，这对于制作海报、广告等图文结合的设计非常有价值。
高分辨率与细节：
支持生成高达 4K 分辨率的图像，细节表现出色。
多样性与语义理解：
支持多样化的主题和艺术风格，能较好地理解复杂的文本描述并将其转化为视觉图像。
跨平台兼容性：
通过 ImageFX 等工具，用户可以在电脑和移动设备上使用。
潜空间扩散模型架构：
采用先进的潜空间扩散模型，有助于在保持图像细节的同时生成高分辨率、高清晰度的图像，并能更好地处理复杂文本提示，探索更多创新视觉路径。