2026 年 6 月 17 日凌晨,@xai 在 X 平台扔出一段视频。
盔甲战士在火光中转头,布料随动作翻飞,背景里风声、金属碰撞、低语全部同步到位。没有后期配音,没有分步合成,一次推理全部出来。
帖子正文压成一行:
"Grok Imagine Video 1.5 is here — sharper realism, better physics and faster generations."
「Grok Imagine Video 1.5 来了——更清晰的真实感、更好的物理、更快的生成。」
24 小时内,这条帖被 500 多万人围观,3200 余次点赞,400 多条回复。
▲ @xai 官方发布 Video 1.5,24 小时 500 万+浏览,3200+ 赞
所有人盯着同一个问题:xAI 的图生视频,这次到底跨了多大一步?
25 秒一段 720p,速度近乎翻倍
直接看数据。
xAI 在 6 月 16 日发布 Grok Imagine Video 1.5 正式版(GA),Fast 版本同步推上 grok.com/imagine 和移动端 App。官方速度对比:一段 6 秒 720p 视频,生成时间从之前的 40 多秒压到了约 25 秒。
近乎翻倍。
过去你上传一张图、写一行提示词,要干等将近一分钟才能看结果。现在水还没烧开,视频已经渲染完了。迭代门槛从「算了不试了」直接滑到「再调一版看看」。
速度账算完,还有一个被很多人低估的变化。
原生音频:架构层绕开了「配音地狱」
用过早期 AI 视频工具的人都有体验:先生成一段无声画面,再拿另一个模型去配音。口型漂移、音效错位、脚步声跟地板对不上——这些 bug 几乎写进了每一个早期 demo 里。
Grok Imagine Video 1.5 的做法不同。它在一个推理 pass 内联合输出视频和音频。对话、脚步、环境音、背景音乐全部原生同步,不需要二次加工。
"The realism, physics performance, and native audio are all maxed out — completely on par with Seedance 2.0."
「真实感、物理表现和原生音频都拉满了,完全不输 Seedance 2.0。」
这句评价来自中文创作者 @AYi_AInotes。他在 X 上发了一段用 1.5 生成的《权力的游戏》Tyrion 法庭演讲场景。面部微表情、布料的动态褶皱、火把光在盔甲上的反射——这些在分步式生成里极难做到自然连贯的细节,1.5 一次性完成。
▲ 中文创作者用 1.5 复刻《权游》经典场景,评价「物理、音频都拉满了」
不止是玩具:API 开放,$0.08/秒,开发者可以进场
xAI 没打算把 Video 1.5 做成一个仅供截图发朋友圈的魔法按钮。
API 同步开放,模型名grok-imagine-video-1.5,定价输出 $0.08/秒,限速 60 次/分钟,多区域可用。第三方平台 Replicate 已经托管了模型,附了一份完整的提示词指南。
什么叫「像导演一样写提示词」?Replicate 的文档把方法论拆得很细:描述运动,别重述画面;用摄像机语言——dolly in、orbit、tracking shot、handheld;需要音频就直接在提示里写 AUDIO: 段落;短片 5-8 秒是甜点区。
▲ xAI 官网公告:速度翻倍数据、Projects 分组、多代理并行、Python 代码示例
同步上线的还有Projects(左侧分组管理生成任务)、多代理并行(不用等上一个跑完再开下一个)、库内搜索历史结果。这几个功能凑在一起,把 Grok Imagine 从「一次性炫技」拉到了「可迭代的创作项目」。
更耐人寻味的是,同一天 xAI 还发布了 Grok for PowerPoint。加上此前已有的文本、图像、语音能力,Grok 的产品矩阵正在快速闭合。
Sora 退场,Seedance 追赶,xAI 打了一套组合拳
把格局拉大。
OpenAI 的 Sora 曾是这个赛道最响的名字。但因成本和商业落地问题,据报道已下架。ByteDance 的 Seedance 2.0 一度在 Arena 榜单领跑,Google Veo 在企业端稳扎稳打。
然后 xAI 的 1.5 preview 在 5 月底登场。多个 AI 视频 Arena 数据显示,1.5 preview 登顶或大幅拉升 Elo 分数(+52 分超越 1.0),在 720p 图生视频类别压过 Seedance 2.0。
xAI 这次打的是组合拳:速度翻倍 + 原生音频 + 忠实源图细节 + API 透明定价 + 消费级入口(App + Web)。五张牌一起出,同行里目前还没有哪家同时凑齐。
▲ Replicate 托管页面:完整提示词指南、技术参数、示例用例,开发者接入门槛极低
创作者 @heavypulp 用新模型做了一支叫「Odyssey」的电影级预告片,xAI 官方直接转发展示——这就是他们想传递的信号:这东西能上大银幕。
▲ @heavypulp 制作的「Odyssey」预告片获 xAI 官方转发,被称为「大银幕级」
有上限,但迭代节奏说明了一切
付费用户在 X 回复区提到两个绕不开的现实:额度限制(每天生成条数有限)和内容审核偏严格。时长封顶 15 秒,做复杂内容需要多段拼接加后期。
这些不是 1.5 独有的短板——当前所有前沿视频模型都卡在类似的边界上。
真正值得盯的,是 xAI 打破天花板的节奏。
从 5 月底 preview 登场,到 6 月 16 日 GA,再到 6 月 17 日消费者端全面上线——xAI 只用了三周。按这个速度推演,15 秒上限、额度瓶颈、长视频一致性,在接下来的版本里大概率会逐个松动。
▲ @xai API 细节帖:720p 视频从 40+ 秒压缩到约 25 秒,附官网链接
一个容易被忽略的细节:Video 1.5 和 Grok for PowerPoint 在同一天发布。不是巧合。把视频生成、文档创作、图像设计、代码编写塞进同一个 Grok 体系,xAI 瞄准的是一条从想象到成品的完整创作管线。
一张静态图,一行提示词,25 秒后拿到一段带同步音频的短片。这个循环正在从「看起来很酷」变成「真的能跑通」。
而 Elon Musk 做事的风格,圈内人都清楚:能用之后,下一步就是把它塞进每一个你已经在用的产品里。



