>

Gemini Omni Flash 视频任务达 SOTA：图生视频、文生视频和视频编辑又进了一步

>

Gemini Omni Flash 视频任务达 SOTA：图生视频、文生视频和视频编辑又进了一步

Gemini Omni Flash 视频任务达 SOTA：图生视频、文生视频和视频编辑又进了一步

yibaiaigc.com

2026-06-12

3

导读：Google 的 Gemini Omni Flash 又有了新进展。

Google Gemini Omni Flash 迎来新进展。6 月 11 日，Google 相关人员在 X 平台表示，Gemini Omni Flash 在图像到视频、文本到视频和视频编辑任务上达到 SOTA 水平，并将很快通过 API 向开发者开放。

Gemini Omni 官方文章配图，来源：Google Blog

此次更新的重点在于 Gemini Omni Flash 覆盖的视频任务范围不再局限于单一的文生视频，而是扩展到多模态输入与编辑能力。

Gemini Omni Flash 覆盖的视频任务范围

核心能力：多模态输入与全任务覆盖

Google DeepMind 模型介绍页面显示，Gemini Omni Flash 在 Video Editing、Text to Video、Image to Video、Reference to Video 等任务上表现突出。其定位明确支持多种输入组合，包括文本、照片、视频和音频，用于生成或编辑视频。

Google 官方博客指出，Gemini Omni 结合了推理与创作能力，允许用户通过多种输入生成高质量视频，并通过对话继续编辑。核心能力包括：

支持文本、照片或视频组合生成视频。

支持最多 5 张照片作为参考生成视频。

提供更便捷的视频编辑功能。

支持通过对话方式调整视频内容。

Gemini Omni 官方演示图，来源：Google DeepMind

流程变革：从单次生成到可编辑对话

与传统视频生成工具相比，Gemini Omni 强调“编辑视频”而非单纯生成。传统流程通常为“输入提示词 - 生成视频 - 不满意重生成”，存在细节难修改、人物场景易漂移等问题。

Gemini Omni 旨在让用户以更自然的方式创作和修改视频。真实创作往往需要调整动作、背景、镜头、人物状态及画面节奏。若每次修改都需重新生成，成本高且难保持一致性。

Gemini Omni Flash 的进展不仅是生成质量提升，更是视频生成能力向可编辑、可对话、可接入 API 方向推进。

生态集成：API 开放与工作流嵌入

Gemini Omni Flash 将通过 API 提供给开发者，这意味着它将成为更多应用、平台和工作流的底层能力。视频生成能力 API 化后，可接入各类产品：

创意工具与内容平台。

广告系统与素材管理系统。

自动化营销与图文视频生产平台。

视频生成将从“单独使用工具”转变为“嵌入具体生产流程”。模型能力的提升正在推动视频生成进入实际工具链。

视频模型从单点生成走向多任务工作流

行业影响：静态素材价值重估

对普通内容生产者而言，更现实的变化是静态素材价值的重新放大。

静态素材会成为后续视频生产的起点

随着图像到视频、文本到视频及视频编辑能力的提升，产品图、人物图、详情页图等静态素材将成为视频生产的基础。未来很多视频物料可能不再从拍摄现场开始，而是从整理好的静态素材开始。

对于内容生产者，提前夯实基础视觉资产至关重要。当视频模型继续发展，这些静态图将成为后续动态内容的起点。

未来视频生产的入口，可能不是一台摄像机，而是一批已经整理好的产品图、人物图、场景图和详情页素材。

谁先把静态素材池做厚，谁后续制作动态物料的效率就更高。

信息源：

Google DeepMind Gemini Omni
https://deepmind.google/models/gemini-omni/

Google Blog：Introducing Gemini Omni
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/

Google 相关动态
https://x.com/OfficialLoganK/status/2065118111360303414

【声明】内容源于网络

0

0

yibaiaigc.com

1234

内容 964

粉丝 2

yibaiaigc.com 1234

总阅读17.5k

粉丝2

内容964