当你和3D数字人对话时,有没有遇到过这种诡异时刻:它的嘴在动,但表情依旧僵硬;手在挥舞,但和说话内容完全脱节;更糟的是,那种外表像真人但动作不自然的违和感,让人瞬间陷入"恐怖谷"。
问题的根源在于,人类沟通从来不只是语言或动作的单一呈现。一个耸肩可以表达无奈,一个点头传递认同,而微微扬起的眉毛则暗示怀疑。这些由手势、姿态与面部表情构成的非语言信号,是真实交流中不可或缺的关键维度。
AI初创公司SentiPulse联合中国人民大学高瓴人工智能学院最新发布的SentiAvatar框架,正是为解决这一难题而生。该框架在自建数据集SuSuInterActs上实现了R@1 43.64%(接近次优基线2倍)的突破性成绩,在BEATv2跨数据集评测中FGD 4.941、BC 8.078双刷SOTA,更实现了0.3秒内生成6秒动作的实时性能。今天,SentiAvatar框架、SuSu角色模型及SuSuInterActs数据集已全球同步开源。
相关链接
-
论文:https://arxiv.org/abs/2604.02908 -
代码:https://github.com/SentiAvatar/SentiAvatar -
数据:https://huggingface.co/datasets/Chuhaojin/SuSuInterActs -
主页:https://sentiavatar.github.io
论文介绍
SentiAvatar 的核心愿景是构建一套全栈式情感驱动数字人生成框架。作者提出,真正的交互式数字人需要实现三个层次的统一:生理层(面部肌肉运动)+心理层(情感状态)+行为层(肢体语言)的统一建模。通过在多个维度进行端到端训练,SentiAvatar 能够实现自然流畅的情感表达和智能互动。
方法概述
数据集构建:SuSuInterActs
为了解决高质量数据稀缺的问题,研究团队构建了SuSuInterActs数据集,包含2.1万段片段、总计37小时的多模态对话语料。该数据集通过光学动捕技术采集,围绕单一虚拟角色SUSU,涵盖了同步的语音、全身动作与面部表情,为模型训练提供了丰富的高质量数据。
动作基础模型:Motion Foundation Model
在预训练阶段,研究团队引入了Motion Foundation Model,在超过20万条异质动作序列上训练通用运动先验。这一模型不仅具备丰富的动作先验知识,还通过引入奥运运动、仿生动作等专项类别,扩展了动作先验的覆盖边界,为后续的精细动作生成提供了坚实基础。
核心架构:plan-then-infill
SentiAvatar采用了创新的双通道并行架构plan-then-infill,将句子级语义规划与逐帧的韵律驱动插值解耦。身体动作通道通过LLM语义规划器生成稀疏关键帧动作Token序列,再由Body Infill Transformer在相邻关键帧之间填入中间帧,确保动作的连续性和节奏感。面部表情通道则直接绕过LLM规划阶段,由Face Infill Transformer从音频特征生成面部Token序列,实现面部表情与语音韵律的高度耦合。
实验
定性分析
对不同方法生成的动作进行定性比较。每一行显示给定动作和语音的关键帧序列。相同颜色的文本和箭头表示相同的时间步。红色箭头表示错误的动作。
定量结果
对 SuSuInterActs 进行定量比较。粗体:最佳;↑/↓:数值越高/越低越好。ESD 单位为秒。“†”表示采用逐词自回归生成的 T2M-GPT 变体。
结论
论文介绍了一种名为SentiAvatar的新型框架,用于构建高度表现力的交互式 3D 数字人,并通过我们开发的实时角色 SuSu 进行了演示。为了解决交互式对话数据匮乏以及动作与韵律同步的难题,引入了时长 37 小时的多模态对话语料库SuSuInterActs ,并提出了一种基于预训练 Motion Foundation 模型(该模型已在超过 20 万个序列上进行训练)的“先规划后填充”架构。该设计有效地将高层语义规划与帧级音频驱动插值解耦,确保生成的动作既符合上下文语境,又与语音节奏同步。实验表明,SentiAvatar 在 SuSuInterActs 和 BEATv2 数据集上均取得了最先进的性能。凭借高效的生成速度(6 秒输出仅需 0.3 秒)和开源资源,我们的工作为未来自然、实时虚拟人交互的研究奠定了坚实的基础。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

