大数跨境

xAI「Grok Imagine Video 1.5」炸场上线!一张图几秒出片、原生音频同步生成,AI 视频赛道又被掀翻了

xAI「Grok Imagine Video 1.5」炸场上线!一张图几秒出片、原生音频同步生成,AI 视频赛道又被掀翻了 算法之瞳
2026-06-19
11
导读:xAI「Grok Imagine Video 1.5」炸场上线!一张图几秒出片、原生音频同步生成,AI 视频赛道又被掀翻了

2026 年 6 月 17 日凌晨,@xai 在 X 平台扔出一段视频。

盔甲战士在火光中转头,布料随动作翻飞,背景里风声、金属碰撞、低语全部同步到位。没有后期配音,没有分步合成,一次推理全部出来。

帖子正文压成一行:

"Grok Imagine Video 1.5 is here — sharper realism, better physics and faster generations."

「Grok Imagine Video 1.5 来了——更清晰的真实感、更好的物理、更快的生成。」

24 小时内,这条帖被 500 多万人围观,3200 余次点赞,400 多条回复。

xAI 官方主帖:视频演示 + 3200 赞 + 500 万浏览(分段1)xAI 官方主帖:视频演示 + 3200 赞 + 500 万浏览(分段2)

▲ @xai 官方发布 Video 1.5,24 小时 500 万+浏览,3200+ 赞

所有人盯着同一个问题:xAI 的图生视频,这次到底跨了多大一步?

25 秒一段 720p,速度近乎翻倍

直接看数据。

xAI 在 6 月 16 日发布 Grok Imagine Video 1.5 正式版(GA),Fast 版本同步推上 grok.com/imagine 和移动端 App。官方速度对比:一段 6 秒 720p 视频,生成时间从之前的 40 多秒压到了约 25 秒。

近乎翻倍。

过去你上传一张图、写一行提示词,要干等将近一分钟才能看结果。现在水还没烧开,视频已经渲染完了。迭代门槛从「算了不试了」直接滑到「再调一版看看」。

速度账算完,还有一个被很多人低估的变化。

原生音频:架构层绕开了「配音地狱」

用过早期 AI 视频工具的人都有体验:先生成一段无声画面,再拿另一个模型去配音。口型漂移、音效错位、脚步声跟地板对不上——这些 bug 几乎写进了每一个早期 demo 里。

Grok Imagine Video 1.5 的做法不同。它在一个推理 pass 内联合输出视频和音频。对话、脚步、环境音、背景音乐全部原生同步,不需要二次加工。

"The realism, physics performance, and native audio are all maxed out — completely on par with Seedance 2.0."

「真实感、物理表现和原生音频都拉满了,完全不输 Seedance 2.0。」

这句评价来自中文创作者 @AYi_AInotes。他在 X 上发了一段用 1.5 生成的《权力的游戏》Tyrion 法庭演讲场景。面部微表情、布料的动态褶皱、火把光在盔甲上的反射——这些在分步式生成里极难做到自然连贯的细节,1.5 一次性完成。

中文创作者实测《权游》Tyrion 场景,称赞真实感和原生音频

▲ 中文创作者用 1.5 复刻《权游》经典场景,评价「物理、音频都拉满了」

不止是玩具:API 开放,$0.08/秒,开发者可以进场

xAI 没打算把 Video 1.5 做成一个仅供截图发朋友圈的魔法按钮。

API 同步开放,模型名grok-imagine-video-1.5,定价输出 $0.08/秒,限速 60 次/分钟,多区域可用。第三方平台 Replicate 已经托管了模型,附了一份完整的提示词指南。

什么叫「像导演一样写提示词」?Replicate 的文档把方法论拆得很细:描述运动,别重述画面;用摄像机语言——dolly in、orbit、tracking shot、handheld;需要音频就直接在提示里写 AUDIO: 段落;短片 5-8 秒是甜点区。

xAI 官网 GA 公告:速度对比、Projects 功能、多代理并行、Python SDK 示例

▲ xAI 官网公告:速度翻倍数据、Projects 分组、多代理并行、Python 代码示例

同步上线的还有Projects(左侧分组管理生成任务)、多代理并行(不用等上一个跑完再开下一个)、库内搜索历史结果。这几个功能凑在一起,把 Grok Imagine 从「一次性炫技」拉到了「可迭代的创作项目」。

更耐人寻味的是,同一天 xAI 还发布了 Grok for PowerPoint。加上此前已有的文本、图像、语音能力,Grok 的产品矩阵正在快速闭合。

Sora 退场,Seedance 追赶,xAI 打了一套组合拳

把格局拉大。

OpenAI 的 Sora 曾是这个赛道最响的名字。但因成本和商业落地问题,据报道已下架。ByteDance 的 Seedance 2.0 一度在 Arena 榜单领跑,Google Veo 在企业端稳扎稳打。

然后 xAI 的 1.5 preview 在 5 月底登场。多个 AI 视频 Arena 数据显示,1.5 preview 登顶或大幅拉升 Elo 分数(+52 分超越 1.0),在 720p 图生视频类别压过 Seedance 2.0。

xAI 这次打的是组合拳:速度翻倍 + 原生音频 + 忠实源图细节 + API 透明定价 + 消费级入口(App + Web)。五张牌一起出,同行里目前还没有哪家同时凑齐。

Replicate 平台上的 Grok Imagine Video 1.5,含完整提示词指南

▲ Replicate 托管页面:完整提示词指南、技术参数、示例用例,开发者接入门槛极低

创作者 @heavypulp 用新模型做了一支叫「Odyssey」的电影级预告片,xAI 官方直接转发展示——这就是他们想传递的信号:这东西能上大银幕。

xAI 转发 Heavy Pulp 用 1.5 制作的电影级预告片

▲ @heavypulp 制作的「Odyssey」预告片获 xAI 官方转发,被称为「大银幕级」

有上限,但迭代节奏说明了一切

付费用户在 X 回复区提到两个绕不开的现实:额度限制(每天生成条数有限)和内容审核偏严格。时长封顶 15 秒,做复杂内容需要多段拼接加后期。

这些不是 1.5 独有的短板——当前所有前沿视频模型都卡在类似的边界上。

真正值得盯的,是 xAI 打破天花板的节奏。

从 5 月底 preview 登场,到 6 月 16 日 GA,再到 6 月 17 日消费者端全面上线——xAI 只用了三周。按这个速度推演,15 秒上限、额度瓶颈、长视频一致性,在接下来的版本里大概率会逐个松动。

@xai 明确数据帖:720p 生成从 40+ 秒降到约 25 秒

▲ @xai API 细节帖:720p 视频从 40+ 秒压缩到约 25 秒,附官网链接

一个容易被忽略的细节:Video 1.5 和 Grok for PowerPoint 在同一天发布。不是巧合。把视频生成、文档创作、图像设计、代码编写塞进同一个 Grok 体系,xAI 瞄准的是一条从想象到成品的完整创作管线。

一张静态图,一行提示词,25 秒后拿到一段带同步音频的短片。这个循环正在从「看起来很酷」变成「真的能跑通」。

而 Elon Musk 做事的风格,圈内人都清楚:能用之后,下一步就是把它塞进每一个你已经在用的产品里。

【声明】内容源于网络
0
0
算法之瞳
AGI前沿评论
内容 81
粉丝 0
算法之瞳 AGI前沿评论
总阅读151
粉丝0
内容81