点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
字节推出的 InfinityStar 是一个统一的时空自回归框架,用于高分辨率图像和动态视频合成。
-
统一时空模型:一种纯粹离散的自回归方法,在一个优雅的架构中共同捕捉空间和时间依赖性。
-
多功能生成:这种统一的设计自然地支持各种生成任务,例如文本到图像、文本到视频、图像到视频以及通过简单的时序自回归进行长交互式视频合成。
-
领先的性能和速度:通过大量的实验,InfinityStar 在 VBench 上获得了83.74分,大幅超越了所有自回归模型,甚至超越了 HunyuanVideo 等扩散型竞争对手,速度比领先的基于扩散的方法快约10 倍。
-
开创高分辨率自回归生成:据我们所知,InfinityStar 是第一款能够生成工业级 720p 视频的离散自回归视频生成器,为同类产品树立了新的质量标准。
全身美学 动漫与3D 运动 长篇互动视频
相关链接
-
论文:https://arxiv.org/pdf/2511.04675 -
代码:https://github.com/FoundationVision/InfinityStar -
模型:https://huggingface.co/FoundationVision/InfinityStar
介绍
字节推出的InfinityStar是一个用于高分辨率图像和动态视频合成的统一时空自回归框架。基于自回归建模在视觉和语言领域的最新成功,论文采用纯离散方法,在单一架构中同时捕捉空间和时间依赖性。
这种统一的设计自然地支持各种生成任务,例如文本到图像、文本到视频、图像到视频以及通过简单的时序自回归生成长交互式视频。大量实验表明,InfinityStar 在 VBench 测试中取得了 83.74 分,大幅优于所有自回归模型,甚至超越了一些基于扩散的竞争对手,例如 HunyuanVideo。
无需额外优化,模型生成 5 秒、720p 视频的速度比领先的基于扩散的方法快约 10 倍。InfinityStar 是首个能够生成工业级 720p 视频的离散自回归视频生成器。我们发布所有代码和模型,以促进对高效、高质量视频生成技术的进一步研究。
方法概述
-
统一建模,用于图像、视频生成和长交互式视频合成:
InfinityStar 的时空金字塔建模。InfinityStar 采用统一的自回归 管道构建,能够在一个模型中完成文本到图像、文本到视频、图像到视频以及视频 外推等任务。
可视化
文本转图像示例
图片转视频示例
视频外推示例
基准
在图像生成基准测试中达到最高性能:
在视频生成基准测试中达到最高性能:
超越混源视频*等分销竞争对手:
结论
InfinityStar是一个统一的时空自回归框架,能够合成高分辨率图像和动态、高运动视频。InfinityStar 通过在纯离散架构中无缝集成空间和时间预测,支持各种生成任务,同时保持一流的质量和卓越的效率。我们广泛的评估表明,InfinityStar 的性能优于以往的自回归视频模型,并可与领先的基于扩散的方法相媲美,仅需十分之一的推理时间即可生成 5 秒的 720p 视频。此外还扩展了 InfinityStar,使其支持生成长交互式视频。作为首个能够实现工业级 720p 视频合成的离散自回归模型,预期 InfinityStar 将推动未来对快速、长视频生成的研究。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

