在数字人技术蓬勃发展的当下,阿里以其前沿的技术布局,重磅开源了 LAM(Large Avatar Model),这一创新型的大型头像模型,为单张图像重建可动画高斯头部领域带来了革命性的突破。过往的技术路径,往往受困于复杂的训练流程,需依赖大量捕获的视频序列进行冗长的训练过程,或者在推理阶段借助辅助神经网络来实现动画和渲染,效率与便捷性均大打折扣。而 LAM 则另辟蹊径,以其独特的技术架构,能够直接生成可即刻用于动画制作与渲染的高斯头部,彻底颠覆了传统模式。
技术核心解析

整体架构剖析
LAM 的整体框架构建在先进的跨注意力(cross-attention)机制与多模态信息融合的基础之上。其核心在于利用附加至 FLAME 顶点的可学习查询特征,与从输入图像中提取的多层次图像特征展开深度交互。具体而言,借助 DinoV2 图像特征提取器这一强大工具,从单张输入图像中精准抽取丰富的视觉特征,该提取器经过海量图像数据集的深度训练,具备卓越的特征识别与解析能力。与此同时,FLAME 模型所提供的形状信息及动画属性被充分挖掘利用。这些提取的特征在框架内历经解码流程,最终在标准空间中完成高斯头像的重建。重建后的高斯头像可无缝对接标准线性混合蒙皮(LBS)技术以及校正混合形状(如 FLAME 模型所采用的方式),实现自然流畅的动画效果,并能在各类平台,从高性能计算机到便携移动设备,均能实现实时渲染。

文本驱动与风格编辑机制
为进一步拓展 LAM 的应用边界,团队精心设计了一套简化且高效的流程,实现从文本提示到可动画高斯头像的转化。在此过程中,引入成熟的文本到图像生成框架,如 Stable Diffusion,依据给定的文本描述生成对应的目标头像图像。随后,该生成图像进入 LAM 系统,通过前向机制,快速创建出可动画的高斯头像,极大地提升了创作的灵活性与效率,为用户提供了一种全新的基于文本创作数字人的方式。

不仅如此,LAM 框架还支持强大的风格编辑功能。用户仅需输入一张风格参考图像,利用图像到图像的转换框架,便能轻松修改头像风格,无论是调整年龄、变换妆容,亦或是将写实头像转化为卡通风格,均可一键达成。编辑后的图像再次输入模型,即可生成契合所需风格的可动画高斯头像,充分满足用户多样化的创意需求
演示效果与技术洞察

实时渲染与跨平台优势
在实际演示中,LAM 的性能表现堪称卓越。通过单次前向传递,LAM 能够在极短时间内,通常不到一秒,便生成可动画的高斯头像。这一高效的生成速度,使得重建的 3D 高斯头像可在包括手机在内的各类平台上实现实时重现与渲染。无论是在移动社交场景中的实时互动,还是在虚拟现实、增强现实应用中的沉浸式体验,LAM 都能凭借其出色的跨平台性能,为用户带来流畅、逼真的数字人视觉效果。

技术局限性探讨
诚然,任何技术在发展进程中都并非尽善尽美,LAM 亦不例外。当前,LAM 在动画化过程中主要依赖 FLAME 参数,这就导致其在表情模拟方面存在一定局限,对于 FLAME 模型无法建模的表情,如舌头的精细运动,LAM 难以精准再现,因为 FLAME 模型本身并未涵盖此类混合形状。此外,为实现高效动画与渲染,LAM 去除了 2D 后处理网络,这虽提升了效率,但也使得一些依赖表情的细节,如动态皱纹的模拟受到影响。同时,由于单张输入图像所能承载的信息有限,加之从视频中估计 FLAME 参数时可能存在的不准确问题,都会在一定程度上影响最终的表情生成效果与重建精度。

阿里开源的 LAM 为数字人领域注入了新的活力,尽管存在一些有待攻克的技术难题,但它所展现出的创新性与应用潜力不容小觑。随着技术的持续迭代与优化,有望在更多领域实现更广泛、更深入的应用。
如果想了解更多ai大模型技术探讨,点击下方优秘智能进入群聊,带你了解ai,学会ai


