大数跨境

Gemini Omni Flash 视频任务达 SOTA:图生视频、文生视频和视频编辑又进了一步

Gemini Omni Flash 视频任务达 SOTA:图生视频、文生视频和视频编辑又进了一步 yibaiaigc.com
2026-06-12
3
导读:Google 的 Gemini Omni Flash 又有了新进展。

Google Gemini Omni Flash 迎来新进展。6 月 11 日,Google 相关人员在 X 平台表示,Gemini Omni Flash 在图像到视频、文本到视频和视频编辑任务上达到 SOTA 水平,并将很快通过 API 向开发者开放。

Gemini Omni 官方文章配图,来源:Google Blog

此次更新的重点在于 Gemini Omni Flash 覆盖的视频任务范围不再局限于单一的文生视频,而是扩展到多模态输入与编辑能力。

Gemini Omni Flash 覆盖的视频任务范围

核心能力:多模态输入与全任务覆盖

Google DeepMind 模型介绍页面显示,Gemini Omni Flash 在 Video Editing、Text to Video、Image to Video、Reference to Video 等任务上表现突出。其定位明确支持多种输入组合,包括文本、照片、视频和音频,用于生成或编辑视频。

Google 官方博客指出,Gemini Omni 结合了推理与创作能力,允许用户通过多种输入生成高质量视频,并通过对话继续编辑。核心能力包括:

支持文本、照片或视频组合生成视频。

支持最多 5 张照片作为参考生成视频。

提供更便捷的视频编辑功能。

支持通过对话方式调整视频内容。

Gemini Omni 官方演示图,来源:Google DeepMind

流程变革:从单次生成到可编辑对话

与传统视频生成工具相比,Gemini Omni 强调“编辑视频”而非单纯生成。传统流程通常为“输入提示词 - 生成视频 - 不满意重生成”,存在细节难修改、人物场景易漂移等问题。

Gemini Omni 旨在让用户以更自然的方式创作和修改视频。真实创作往往需要调整动作、背景、镜头、人物状态及画面节奏。若每次修改都需重新生成,成本高且难保持一致性。

Gemini Omni Flash 的进展不仅是生成质量提升,更是视频生成能力向可编辑、可对话、可接入 API 方向推进。

生态集成:API 开放与工作流嵌入

Gemini Omni Flash 将通过 API 提供给开发者,这意味着它将成为更多应用、平台和工作流的底层能力。视频生成能力 API 化后,可接入各类产品:

创意工具与内容平台。

广告系统与素材管理系统。

自动化营销与图文视频生产平台。

视频生成将从“单独使用工具”转变为“嵌入具体生产流程”。模型能力的提升正在推动视频生成进入实际工具链。

视频模型从单点生成走向多任务工作流

行业影响:静态素材价值重估

对普通内容生产者而言,更现实的变化是静态素材价值的重新放大。

静态素材会成为后续视频生产的起点

随着图像到视频、文本到视频及视频编辑能力的提升,产品图、人物图、详情页图等静态素材将成为视频生产的基础。未来很多视频物料可能不再从拍摄现场开始,而是从整理好的静态素材开始。

对于内容生产者,提前夯实基础视觉资产至关重要。当视频模型继续发展,这些静态图将成为后续动态内容的起点。

未来视频生产的入口,可能不是一台摄像机,而是一批已经整理好的产品图、人物图、场景图和详情页素材。

谁先把静态素材池做厚,谁后续制作动态物料的效率就更高。

信息源:

Google DeepMind Gemini Omni
https://deepmind.google/models/gemini-omni/

Google Blog:Introducing Gemini Omni
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/

Google 相关动态
https://x.com/OfficialLoganK/status/2065118111360303414

【声明】内容源于网络
0
0
yibaiaigc.com
1234
内容 964
粉丝 2
yibaiaigc.com 1234
总阅读17.5k
粉丝2
内容964