大数跨境
0
0

任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角

任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角 新智元
2026-01-06
9


新智元报道

编辑:LRST

【新智元导读】

BiCo:一种可控、灵活的AI视觉概念组合生成方法

BiCo(Bind & Compose)是一种创新的AI视觉内容生成方法,通过分层绑定器、多样化与吸收机制(DAM)、时间解耦策略(TDS)三大核心技术,实现图像与视频中多种视觉概念(如物体、风格、动作、光照)的精准提取与可控组合。相比现有方案,BiCo在概念一致性、提示忠实度和运动质量等关键指标上全面领先,适用于视频制作、艺术创作、广告创意等多场景。

现有方法的两大瓶颈

当前主流AI视觉生成方法面临以下核心挑战:

概念提取不准确:依赖LoRA适配器或可学习嵌入,在遮挡、时间变化等复杂条件下难以稳定分解概念;对非物体类概念(如风格、光照)提取能力薄弱。

组合方式高度受限:多局限于“用视频驱动图片主体”,无法灵活融合图像与视频中的各类属性;任意图像+视频的通用组合及可控编辑仍是未解难题。

BiCo如何突破?三大核心技术解析

分层绑定器结构(Hierarchical Binder Structure)

问题:如何在无显式掩码前提下,准确分解复杂视觉概念?

方案:在Diffusion Transformer(DiT)交叉注意力中构建分层绑定器,将视觉特征隐式编码至对应文本token。

效果:支持多源概念按文本提示条件自动整合,实现基于语义的精准绑定与组合。

多样化与吸收机制(Diversify-and-Absorb Mechanism, DAM)

问题:如何提升concept-token绑定的鲁棒性与准确性?

方案:训练时对单样本提示进行多样化增强,并引入“吸收令牌”过滤无关细节干扰。

效果:显著降低噪声影响,提升概念表征纯净度与可复现性。

时间解耦策略(Temporal Disentanglement Strategy, TDS)

问题:如何统一图像与视频概念的建模范式?

方案:分两阶段训练——首阶段在单帧上学习静态绑定(与图像训练一致),次阶段在视频上扩展双分支绑定器进行时间建模,并继承前一阶段知识。

效果:大幅增强图像与视频概念间的兼容性,保障动态组合的自然性与连贯性。

BiCo模型整体架构

分层绑定器结构与DAM机制示意图

实验结果:全面超越现有方法

定量评估优势明显

BiCo在概念一致性、提示忠实度、运动质量等核心指标上均显著优于SOTA模型,尤其在多概念协同控制任务中表现突出。

定性案例验证强大能力

案例1:动作迁移(图像+视频)
输入:小猴子图片 + 松鼠吃食视频
输出:小猴子在阳光下吃食视频,精准复现松鼠动作与猴子外观。

案例2:创意风格迁移(图像+视频)
输入:线条艺术风格大象图片 + 大象行走视频
输出:线条风格的大象行走视频,风格与运动完美融合。

案例3:多概念组合(三图像+视频)
输入:快乐秋田犬、时尚套装、蓝白条纹帽子 + 女子长椅读书视频
输出:秋田犬穿套装戴帽子,在长椅上读书,完成主体、服装、配饰与场景动作的跨源协同。

案例4:多视频组合
输入:弹吉他男子视频 + 穿绿色西装举小号男子视频
输出:两人同框演奏视频,人物外观、动作、空间关系可控集成。

线稿风格大象视频生成效果对比(BiCo vs 其他方法)

与可灵O1对比:BiCo三大优势凸显

概念一致性更强:BiCo保持蝴蝶栖息花朵的姿态与关系稳定;可灵O1丢失花朵、蝴蝶飞行状态失真。

概念泄漏控制更优:BiCo严格还原火山喷发状态;可灵O1引入输入中不存在的元素。

风格迁移更忠实:BiCo成功将像素艺术风格应用于流动岩浆;可灵O1岩浆未转为像素风格,导致风格割裂。

综上,BiCo在可控性、概念一致性、提示词忠实度三个维度确立显著技术优势。

应用场景:赋能创作者高效表达

BiCo支持任意数量图像与视频输入,适用于:

  • 视频内容创作:电影特效、广告创意、短视频制作,快速合成多源素材并精确控制视觉元素
  • 艺术创作:跨风格迁移、概念可视化、动画元素复用,提升创意实现效率

技术优势总结

灵活性:支持图像+图像、图像+视频、视频+视频、多源混合等多种组合模式;可融合物体、风格、动作、光照等全类型视觉概念。

准确性:分层绑定器+DAM机制保障概念提取精度,有效抑制噪声与概念泄漏。

兼容性:TDS策略打通图像与视频建模范式,提升组合自然度与时空一致性。

易用性:单样本学习、无需掩码标注、零微调即可使用,大幅降低创作者使用门槛。

结语:开启可控AI视觉创作新范式

BiCo标志着AI视觉生成从“泛化生成”迈向“精准可控”的关键转折。它不仅系统性解决了概念提取与组合的核心难题,更以开放、灵活、可靠的技术路径,为影视、设计、营销等领域的创作者提供了新一代智能生产工具。随着技术持续演进,AI正成为视觉创意不可或缺的协同伙伴。

项目主页:https://refkxh.github.io/BiCo_Webpage/
论文链接:https://arxiv.org/abs/2512.09824

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 14736
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读95.8k
粉丝0
内容14.7k