梦瑶 发自 凹非寺
量子位 | 公众号 QbitAI
米哈游创始人蔡浩宇创立的AI公司Anuttacon,其首个视频模型LPM 1.0正式发布。
Anuttacon技术团队成员Ailing Zeng在X平台展示了该视频角色表演生成模型。
模型旨在提升AI角色表现力,使其更加生动自然。
演示视频显示,AI角色在16秒内流畅切换多种情绪,展现出精准的情绪表达。
在LPM 1.0中,AI角色不仅能演绎情绪,还具备听觉反馈能力。
即使安静聆听,角色也能通过眼神和微表情实时传递情绪变化。
该模型支持用户与AI实时互动。
用户通过语音指令可触发角色即时反应,且在长时间交互中保持形象稳定一致。
凭借自然的表情管理、精准的情绪输出和低延迟交互,LPM 1.0实现了高完成度的角色生成。
演示效果显示,AI角色已达到高度拟真水平。
LPM 1.0:AI角色表现力突破
当前AI视频产品虽能呈现基础角色表情,但LPM 1.0实现了三大核心突破——通过文本、音频和图像多模态输入,生成具备实时对话能力、听觉反馈机制及长期人物一致性的动态角色。
该模型使AI角色在视频中实现更精准的表达、更智能的交互和更稳定的身份特征。
模型核心能力亮点:
情绪演绎能力:同步生成说话、倾听、微表情及自然动作,增强情绪层次感。
实时视频生成:通过在线生成器实现人机实时交互,适用于对话型角色场景。
听觉响应机制:角色能根据语音输入实时调整表情,生成与内容匹配的反应视频。
长期一致性:延长交互时间后,仍维持角色外观与身份特征的统一性。
情绪演绎能力详解
模型在口型同步、呼吸节奏和情绪表达上高度拟人化,实现表演层次化。
演示案例中,人物在数秒内完成犹豫、迟疑到抿嘴咬牙的细微动作转换,准确传递心理状态变化。
另在9秒片段里,角色无缝衔接惊恐、紧张与愤怒情绪,配合台词重心变化调整面部肌肉发力,展现专业级表现力。
听觉反馈机制解析
角色能实时感知对话内容并作出情境化反馈,强化互动真实感。
例如,电话场景中角色通过眼神变化、眉头收紧等细节,呈现边听边消化信息的自然状态。
会议场景演示显示,角色能针对对方发言即时传递疲惫、不耐烦等情绪,准确还原真实交互体验。
实时交互能力
模型支持语音指令驱动的角色响应。
用户发出"let’s sing a song"指令后,AI立即进入歌唱状态;要求自我介绍时,角色迅速生成匹配的内容,交互节奏高度拟人化。
长期内容生成
该模型可稳定输出长时间视频内容。
官方案例显示,系统能生成22分钟至48分钟的连续视频,角色形象保持稳定且不出现特征崩坏。
技术架构解析
LPM 1.0突破行业瓶颈,同步实现表现力、实时性与长视频一致性三大目标。
技术团队构建了以人为中心的多模态数据集,融入表演理解与身份感知机制,优化角色交互状态。
底层采用170亿参数扩散Transformer架构,精准建模时空关联与连续动作关系。
通过自注意力机制,系统同步处理表情、口型、动作及帧间连续性,确保行为自然度。
实时交互模块基于因果式流生成器设计,实现低延迟、无限长度对话,延迟控制在毫秒级。
技术团队由多领域专家组成。Ailing Zeng博士毕业于香港中文大学,曾任腾讯混元团队及IDEA研究院研究员,主导互动多模态视频生成研究。
模型技术细节已发表于20余位研究人员的联合论文中。
目前模型处于开发阶段,尚未正式上线。
参考链接:
https://arxiv.org/html/2604.07823v1
[2]https://large-performance-model.github.io/#

