xAI「Grok Imagine Video 1.5」炸场上线！一张图几秒出片、原生音频同步生成，AI 视频赛道又被掀翻了- 大数跨境

首页

xAI「Grok Imagine Video 1.5」炸场上线！一张图几秒出片、原生音频同步生成，AI 视频赛道又被掀翻了

算法之瞳

2026-06-19

导读：xAI「Grok Imagine Video 1.5」炸场上线！一张图几秒出片、原生音频同步生成，AI 视频赛道又被掀翻了

2026 年 6 月 17 日凌晨，@xai 在 X 平台扔出一段视频。

盔甲战士在火光中转头，布料随动作翻飞，背景里风声、金属碰撞、低语全部同步到位。没有后期配音，没有分步合成，一次推理全部出来。

帖子正文压成一行：

"Grok Imagine Video 1.5 is here — sharper realism, better physics and faster generations."

「Grok Imagine Video 1.5 来了——更清晰的真实感、更好的物理、更快的生成。」

24 小时内，这条帖被 500 多万人围观，3200 余次点赞，400 多条回复。

▲ @xai 官方发布 Video 1.5，24 小时 500 万+浏览，3200+ 赞

所有人盯着同一个问题：xAI 的图生视频，这次到底跨了多大一步？

25 秒一段 720p，速度近乎翻倍

直接看数据。

xAI 在 6 月 16 日发布 Grok Imagine Video 1.5 正式版（GA），Fast 版本同步推上 grok.com/imagine 和移动端 App。官方速度对比：一段 6 秒 720p 视频，生成时间从之前的 40 多秒压到了约 25 秒。

近乎翻倍。

过去你上传一张图、写一行提示词，要干等将近一分钟才能看结果。现在水还没烧开，视频已经渲染完了。迭代门槛从「算了不试了」直接滑到「再调一版看看」。

速度账算完，还有一个被很多人低估的变化。

原生音频：架构层绕开了「配音地狱」

用过早期 AI 视频工具的人都有体验：先生成一段无声画面，再拿另一个模型去配音。口型漂移、音效错位、脚步声跟地板对不上——这些 bug 几乎写进了每一个早期 demo 里。

Grok Imagine Video 1.5 的做法不同。它在一个推理 pass 内联合输出视频和音频。对话、脚步、环境音、背景音乐全部原生同步，不需要二次加工。

"The realism, physics performance, and native audio are all maxed out — completely on par with Seedance 2.0."

「真实感、物理表现和原生音频都拉满了，完全不输 Seedance 2.0。」

这句评价来自中文创作者 @AYi_AInotes。他在 X 上发了一段用 1.5 生成的《权力的游戏》Tyrion 法庭演讲场景。面部微表情、布料的动态褶皱、火把光在盔甲上的反射——这些在分步式生成里极难做到自然连贯的细节，1.5 一次性完成。

▲ 中文创作者用 1.5 复刻《权游》经典场景，评价「物理、音频都拉满了」

不止是玩具：API 开放，$0.08/秒，开发者可以进场

xAI 没打算把 Video 1.5 做成一个仅供截图发朋友圈的魔法按钮。

API 同步开放，模型名grok-imagine-video-1.5，定价输出 $0.08/秒，限速 60 次/分钟，多区域可用。第三方平台 Replicate 已经托管了模型，附了一份完整的提示词指南。

什么叫「像导演一样写提示词」？Replicate 的文档把方法论拆得很细：描述运动，别重述画面；用摄像机语言——dolly in、orbit、tracking shot、handheld；需要音频就直接在提示里写 AUDIO: 段落；短片 5-8 秒是甜点区。

xAI 官网 GA 公告：速度对比、Projects 功能、多代理并行、Python SDK 示例

▲ xAI 官网公告：速度翻倍数据、Projects 分组、多代理并行、Python 代码示例

同步上线的还有Projects（左侧分组管理生成任务）、多代理并行（不用等上一个跑完再开下一个）、库内搜索历史结果。这几个功能凑在一起，把 Grok Imagine 从「一次性炫技」拉到了「可迭代的创作项目」。

更耐人寻味的是，同一天 xAI 还发布了 Grok for PowerPoint。加上此前已有的文本、图像、语音能力，Grok 的产品矩阵正在快速闭合。

Sora 退场，Seedance 追赶，xAI 打了一套组合拳

把格局拉大。

OpenAI 的 Sora 曾是这个赛道最响的名字。但因成本和商业落地问题，据报道已下架。ByteDance 的 Seedance 2.0 一度在 Arena 榜单领跑，Google Veo 在企业端稳扎稳打。

然后 xAI 的 1.5 preview 在 5 月底登场。多个 AI 视频 Arena 数据显示，1.5 preview 登顶或大幅拉升 Elo 分数（+52 分超越 1.0），在 720p 图生视频类别压过 Seedance 2.0。

xAI 这次打的是组合拳：速度翻倍 + 原生音频 + 忠实源图细节 + API 透明定价 + 消费级入口（App + Web）。五张牌一起出，同行里目前还没有哪家同时凑齐。

Replicate 平台上的 Grok Imagine Video 1.5，含完整提示词指南

▲ Replicate 托管页面：完整提示词指南、技术参数、示例用例，开发者接入门槛极低

创作者 @heavypulp 用新模型做了一支叫「Odyssey」的电影级预告片，xAI 官方直接转发展示——这就是他们想传递的信号：这东西能上大银幕。

▲ @heavypulp 制作的「Odyssey」预告片获 xAI 官方转发，被称为「大银幕级」

有上限，但迭代节奏说明了一切

付费用户在 X 回复区提到两个绕不开的现实：额度限制（每天生成条数有限）和内容审核偏严格。时长封顶 15 秒，做复杂内容需要多段拼接加后期。

这些不是 1.5 独有的短板——当前所有前沿视频模型都卡在类似的边界上。

真正值得盯的，是 xAI 打破天花板的节奏。

从 5 月底 preview 登场，到 6 月 16 日 GA，再到 6 月 17 日消费者端全面上线——xAI 只用了三周。按这个速度推演，15 秒上限、额度瓶颈、长视频一致性，在接下来的版本里大概率会逐个松动。

▲ @xai API 细节帖：720p 视频从 40+ 秒压缩到约 25 秒，附官网链接

一个容易被忽略的细节：Video 1.5 和 Grok for PowerPoint 在同一天发布。不是巧合。把视频生成、文档创作、图像设计、代码编写塞进同一个 Grok 体系，xAI 瞄准的是一条从想象到成品的完整创作管线。

一张静态图，一行提示词，25 秒后拿到一段带同步音频的短片。这个循环正在从「看起来很酷」变成「真的能跑通」。

而 Elon Musk 做事的风格，圈内人都清楚：能用之后，下一步就是把它塞进每一个你已经在用的产品里。

【声明】内容源于网络

算法之瞳

AGI前沿评论

内容 81

粉丝 0

算法之瞳 AGI前沿评论

总阅读151

粉丝0

内容81