点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
由新加坡国立大学、南京理工大学、香港科技大学以及南京林业大学提出的 IMAGEdit 是一个无需训练、即插即用的框架,可调整提示并重新定位蒙版,以实现任何主题的视频编辑。
相关链接
-
论文名:IMAGEDIT: LET ANY SUBJECT TRANSFORM -
论文:https://arxiv.org/pdf/2510.01186 -
项目:https://muzishen.github.io/IMAGEdit -
数据:https://muzishen.github.io/IMAGEdit
论文介绍
IMAGEdit 是一个无需训练的框架,可用于编辑任意数量主题的视频,并更改指定类别。IMAGEdit 通过两个关键组件(即快速引导的多模态对齐模块和基于先验的蒙版重定向模块)提供强大的多模态条件反射和精确的蒙版运动序列。通过利用大型预训练模型的理解和生成能力,这些组件可以生成对齐的多模态信号和时间一致的蒙版,从而有效弥补快速侧边条件反射不足的问题,并克服拥挤场景中蒙版边界纠缠的问题。然后,该框架会调节一个预训练的蒙版驱动视频生成器来合成编辑后的视频。IMAGEdit 即插即用,支持各种蒙版驱动的主干网络,并持续提升整体性能。在新的多主题基准测试 MSVBench 上进行的大量实验验证了 IMAGEdit 超越了最先进的方法。
它是如何工作的?
IMAGEdit 是一个无需训练的即插即用框架,它将提示引导的多模态对齐与基于先验的蒙版重定向相结合,从而支持任意主体的视频编辑。它首先通过强大的文本-视觉对齐机制来强化用户提示,然后利用深度和时间先验来优化实例蒙版,以确保运动边界的平滑一致。这些增强的条件会被输入到一个预训练的蒙版驱动视频生成器中,无需额外训练即可生成主体精准、时间连贯且保留背景的编辑结果。
与其他视频编辑方法的比较


结论
IMAGEdit 是一个无需训练的框架,可用于编辑任意数量的主体,并可更改指定类别的视频。IMAGEdit 通过两个关键组件(即快速引导的多模态对齐模块和基于先验的蒙版重定向模块)提供强大的多模态条件反射和精确的蒙版运动序列。这些组件利用大型预训练模型的理解和生成能力,生成对齐的多模态信号和时间一致的蒙版,从而有效弥补快速侧边条件反射不足的问题,并克服拥挤场景中蒙版边界纠缠的问题。该框架随后会调整预训练的蒙版驱动视频生成器,以合成编辑后的视频。IMAGEdit 即插即用,支持多种蒙版驱动的主干模型,并持续提升整体性能。在新的多主体基准 MSVBench 上进行的大量实验验证了 IMAGEdit 超越了最先进的方法。代码、数据集和权重将陆续发布,以支持进一步的研究。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

