0.3秒生成6秒数字人动作！SentiAvatar：让3D数字人真正"活"起来，模型、数据集已经开源。- 大数跨境

首页

0.3秒生成6秒数字人动作！SentiAvatar：让3D数字人真正"活"起来，模型、数据集已经开源。

AIGC Studio

2026-04-16

导读：点击下方名片关注AIGC Studio公众号！获取最新AI前沿应用/AIGC实践教程！

点击下方名片关注AIGC Studio公众号！获取最新AI前沿应用/AIGC实践教程！

扫描下方二维码，加入AIGC Studio知识星球！可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料！学习/科研/工作/副业，强烈推荐！

当你和3D数字人对话时，有没有遇到过这种诡异时刻：它的嘴在动，但表情依旧僵硬；手在挥舞，但和说话内容完全脱节；更糟的是，那种外表像真人但动作不自然的违和感，让人瞬间陷入"恐怖谷"。

问题的根源在于，人类沟通从来不只是语言或动作的单一呈现。一个耸肩可以表达无奈，一个点头传递认同，而微微扬起的眉毛则暗示怀疑。这些由手势、姿态与面部表情构成的非语言信号，是真实交流中不可或缺的关键维度。

AI初创公司SentiPulse联合中国人民大学高瓴人工智能学院最新发布的SentiAvatar框架，正是为解决这一难题而生。该框架在自建数据集SuSuInterActs上实现了R@1 43.64%（接近次优基线2倍）的突破性成绩，在BEATv2跨数据集评测中FGD 4.941、BC 8.078双刷SOTA，更实现了0.3秒内生成6秒动作的实时性能。今天，SentiAvatar框架、SuSu角色模型及SuSuInterActs数据集已全球同步开源。

论文介绍

SentiAvatar 的核心愿景是构建一套全栈式情感驱动数字人生成框架。作者提出，真正的交互式数字人需要实现三个层次的统一：生理层（面部肌肉运动）+心理层（情感状态）+行为层（肢体语言）的统一建模。通过在多个维度进行端到端训练，SentiAvatar 能够实现自然流畅的情感表达和智能互动。

方法概述

数据集构建：SuSuInterActs

为了解决高质量数据稀缺的问题，研究团队构建了SuSuInterActs数据集，包含2.1万段片段、总计37小时的多模态对话语料。该数据集通过光学动捕技术采集，围绕单一虚拟角色SUSU，涵盖了同步的语音、全身动作与面部表情，为模型训练提供了丰富的高质量数据。

动作基础模型：Motion Foundation Model

在预训练阶段，研究团队引入了Motion Foundation Model，在超过20万条异质动作序列上训练通用运动先验。这一模型不仅具备丰富的动作先验知识，还通过引入奥运运动、仿生动作等专项类别，扩展了动作先验的覆盖边界，为后续的精细动作生成提供了坚实基础。

核心架构：plan-then-infill

SentiAvatar采用了创新的双通道并行架构plan-then-infill，将句子级语义规划与逐帧的韵律驱动插值解耦。身体动作通道通过LLM语义规划器生成稀疏关键帧动作Token序列，再由Body Infill Transformer在相邻关键帧之间填入中间帧，确保动作的连续性和节奏感。面部表情通道则直接绕过LLM规划阶段，由Face Infill Transformer从音频特征生成面部Token序列，实现面部表情与语音韵律的高度耦合。

实验

定性分析

对不同方法生成的动作进行定性比较。每一行显示给定动作和语音的关键帧序列。相同颜色的文本和箭头表示相同的时间步。红色箭头表示错误的动作。

定量结果

对 SuSuInterActs 进行定量比较。粗体：最佳；↑/↓：数值越高/越低越好。ESD 单位为秒。“†”表示采用逐词自回归生成的 T2M-GPT 变体。

结论

论文介绍了一种名为SentiAvatar的新型框架，用于构建高度表现力的交互式 3D 数字人，并通过我们开发的实时角色 SuSu 进行了演示。为了解决交互式对话数据匮乏以及动作与韵律同步的难题，引入了时长 37 小时的多模态对话语料库SuSuInterActs ，并提出了一种基于预训练 Motion Foundation 模型（该模型已在超过 20 万个序列上进行训练）的“先规划后填充”架构。该设计有效地将高层语义规划与帧级音频驱动插值解耦，确保生成的动作既符合上下文语境，又与语音节奏同步。实验表明，SentiAvatar 在 SuSuInterActs 和 BEATv2 数据集上均取得了最先进的性能。凭借高效的生成速度（6 秒输出仅需 0.3 秒）和开源资源，我们的工作为未来自然、实时虚拟人交互的研究奠定了坚实的基础。