大数跨境

0.3秒生成6秒数字人动作!SentiAvatar:让3D数字人真正"活"起来,模型、数据集已经开源。

0.3秒生成6秒数字人动作!SentiAvatar:让3D数字人真正"活"起来,模型、数据集已经开源。 AIGC Studio
2026-04-16
3
导读:点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!

当你和3D数字人对话时,有没有遇到过这种诡异时刻:它的嘴在动,但表情依旧僵硬;手在挥舞,但和说话内容完全脱节;更糟的是,那种外表像真人但动作不自然的违和感,让人瞬间陷入"恐怖谷"。

问题的根源在于,人类沟通从来不只是语言或动作的单一呈现。一个耸肩可以表达无奈,一个点头传递认同,而微微扬起的眉毛则暗示怀疑。这些由手势、姿态与面部表情构成的非语言信号,是真实交流中不可或缺的关键维度。

AI初创公司SentiPulse联合中国人民大学高瓴人工智能学院最新发布的SentiAvatar框架,正是为解决这一难题而生。该框架在自建数据集SuSuInterActs上实现了R@1 43.64%(接近次优基线2倍)的突破性成绩,在BEATv2跨数据集评测中FGD 4.941、BC 8.078双刷SOTA,更实现了0.3秒内生成6秒动作的实时性能。今天,SentiAvatar框架、SuSu角色模型及SuSuInterActs数据集已全球同步开源。

相关链接

  • 论文:https://arxiv.org/abs/2604.02908
  • 代码:https://github.com/SentiAvatar/SentiAvatar
  • 数据:https://huggingface.co/datasets/Chuhaojin/SuSuInterActs
  • 主页:https://sentiavatar.github.io

论文介绍

SentiAvatar 的核心愿景是构建一套全栈式情感驱动数字人生成框架。作者提出,真正的交互式数字人需要实现三个层次的统一:生理层(面部肌肉运动)+心理层(情感状态)+行为层(肢体语言)的统一建模。通过在多个维度进行端到端训练,SentiAvatar 能够实现自然流畅的情感表达和智能互动。

方法概述

数据集构建:SuSuInterActs

为了解决高质量数据稀缺的问题,研究团队构建了SuSuInterActs数据集,包含2.1万段片段、总计37小时的多模态对话语料。该数据集通过光学动捕技术采集,围绕单一虚拟角色SUSU,涵盖了同步的语音、全身动作与面部表情,为模型训练提供了丰富的高质量数据。

动作基础模型:Motion Foundation Model

在预训练阶段,研究团队引入了Motion Foundation Model,在超过20万条异质动作序列上训练通用运动先验。这一模型不仅具备丰富的动作先验知识,还通过引入奥运运动、仿生动作等专项类别,扩展了动作先验的覆盖边界,为后续的精细动作生成提供了坚实基础。

核心架构:plan-then-infill

SentiAvatar采用了创新的双通道并行架构plan-then-infill,将句子级语义规划与逐帧的韵律驱动插值解耦。身体动作通道通过LLM语义规划器生成稀疏关键帧动作Token序列,再由Body Infill Transformer在相邻关键帧之间填入中间帧,确保动作的连续性和节奏感。面部表情通道则直接绕过LLM规划阶段,由Face Infill Transformer从音频特征生成面部Token序列,实现面部表情与语音韵律的高度耦合。

实验

定性分析

对不同方法生成的动作进行定性比较。每一行显示给定动作和语音的关键帧序列。相同颜色的文本和箭头表示相同的时间步。红色箭头表示错误的动作。

定量结果

对 SuSuInterActs 进行定量比较。粗体:最佳;↑/↓:数值越高/越低越好。ESD 单位为秒。“†”表示采用逐词自回归生成的 T2M-GPT 变体。

结论

论文介绍了一种名为SentiAvatar的新型框架,用于构建高度表现力的交互式 3D 数字人,并通过我们开发的实时角色 SuSu 进行了演示。为了解决交互式对话数据匮乏以及动作与韵律同步的难题,引入了时长 37 小时的多模态对话语料库SuSuInterActs ,并提出了一种基于预训练 Motion Foundation 模型(该模型已在超过 20 万个序列上进行训练)的“先规划后填充”架构。该设计有效地将高层语义规划与帧级音频驱动插值解耦,确保生成的动作既符合上下文语境,又与语音节奏同步。实验表明,SentiAvatar 在 SuSuInterActs 和 BEATv2 数据集上均取得了最先进的性能。凭借高效的生成速度(6 秒输出仅需 0.3 秒)和开源资源,我们的工作为未来自然、实时虚拟人交互的研究奠定了坚实的基础。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

【声明】内容源于网络
0
0
AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
内容 1140
粉丝 0
AIGC Studio 一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
总阅读18.2k
粉丝0
内容1.1k