全球首个多模态矢量动画生成框架，轻松拿捏跨平台轻量动画- 大数跨境

AIGC开放社区

2026-04-09

235

导读：OmniLottie 矢量图模型。

AI驱动矢量动画生成技术实现新突破

日常浏览中，矢量动画应用广泛。如今，通过输入简单文字或图片，AI可直接生成轻量级矢量动画。

复旦大学联合阶跃星辰、香港大学多模态实验室及昆士兰大学推出OmniLottie框架，利用创新分词技术将文字、图片及视频指令高效转化为高质量矢量动画文件。

团队开发专用代码压缩方法并构建200万规模数据集，实现跨设备动画的自动生成功能。

数字内容动画主要分位图和矢量两类。位图文件大且缩放后易模糊；矢量动画基于数学公式记录图形运动，画面清晰且文件精简，其中Lottie格式因通用性强广受开发者青睐。

Lottie采用图层叠加方法，将形状、特效及运动参数封装于单一JSON文件，相比传统SVG更具优势。当前主流AI模型在处理文字生成视频时表现良好，但生成Lottie动画时受阻。

核心障碍在于原生Lottie文件包含大量非功能性元数据，导致模型算力浪费在代码结构闭合上，难以专注视觉元素与动态规律处理。现有商业工具生成的作品编辑性差，无法满足专业设计需求。

团队重构底层数据表达，开发专用Lottie分词器，剥离冗余结构元数据，仅保留关键动画属性。该技术针对图层属性分类处理：基础属性（图层标识、层级等）、视觉属性（几何变换、特效等）及特定图层属性（预合成、纯色等五类基础图层）。

连续数字参数经离散化转换，形成线性指令代码。系统基于Qwen2.5-VL多模态大模型，集成专属词汇表预测生成精简符号，并由分词器还原为标准动画文件。

团队打造多模态矢量动画数据集MMLottie-2M，通过清洗主流平台原始文件，移除图片、音频等无关元素。针对优质动画不足问题，设计运动轨迹复用流水线：基于OmniSVG库的100万真实文件，提取旋转、缩放等变化轨迹，生成标准化动作模板并应用于静态图。

所有素材统一为512×512分辨率及0-16时间轴标准。采用由粗到细描述策略：先生成整体画面概述，再高亮形状与运动细节，提升大模型指令理解精度。测试基准MMLottie-Bench包含450个设计师提供的真实动画，并补充AI合成指令数据。

OmniLottie在文字生成动画任务中成功率88.3%，大幅领先DeepSeekV3（9.3%）和GPT-5（12.7%）；看图配字任务成功率93.3%，动作流畅性显著优化；视频转动画任务成功率78.4%，远超GPT-5的7.4%。

性能验证表明，混入30%静态图转换数据效果最佳，有效平衡画面丰富度与动作流畅度。关键实验显示，分词器将文字生成动画成功率从原生模型的0%提升至97.3%。

当前系统在处理多图层长动画时存在局限，未来计划引入打分奖励机制并与专业软件集成。

【声明】内容源于网络

AIGC开放社区

1234

内容 1814

粉丝 0

AIGC开放社区 1234

总阅读21.6k

粉丝0

内容1.8k