米哈游蔡浩宇AI公司首个视频模型曝光了- 大数跨境

首页

米哈游蔡浩宇AI公司首个视频模型曝光了

量子位

2026-04-11

导读：AI人物秒变“老戏骨”

梦瑶发自凹非寺
量子位 | 公众号 QbitAI

米哈游创始人蔡浩宇创立的AI公司Anuttacon，其首个视频模型LPM 1.0正式发布。

Anuttacon技术团队成员Ailing Zeng在X平台展示了该视频角色表演生成模型。

模型旨在提升AI角色表现力，使其更加生动自然。

演示视频显示，AI角色在16秒内流畅切换多种情绪，展现出精准的情绪表达。

在LPM 1.0中，AI角色不仅能演绎情绪，还具备听觉反馈能力。

即使安静聆听，角色也能通过眼神和微表情实时传递情绪变化。

该模型支持用户与AI实时互动。

用户通过语音指令可触发角色即时反应，且在长时间交互中保持形象稳定一致。

凭借自然的表情管理、精准的情绪输出和低延迟交互，LPM 1.0实现了高完成度的角色生成。

演示效果显示，AI角色已达到高度拟真水平。

LPM 1.0：AI角色表现力突破

当前AI视频产品虽能呈现基础角色表情，但LPM 1.0实现了三大核心突破——通过文本、音频和图像多模态输入，生成具备实时对话能力、听觉反馈机制及长期人物一致性的动态角色。

该模型使AI角色在视频中实现更精准的表达、更智能的交互和更稳定的身份特征。

模型核心能力亮点：

情绪演绎能力：同步生成说话、倾听、微表情及自然动作，增强情绪层次感。
实时视频生成：通过在线生成器实现人机实时交互，适用于对话型角色场景。
听觉响应机制：角色能根据语音输入实时调整表情，生成与内容匹配的反应视频。
长期一致性：延长交互时间后，仍维持角色外观与身份特征的统一性。

情绪演绎能力详解

模型在口型同步、呼吸节奏和情绪表达上高度拟人化，实现表演层次化。

演示案例中，人物在数秒内完成犹豫、迟疑到抿嘴咬牙的细微动作转换，准确传递心理状态变化。

另在9秒片段里，角色无缝衔接惊恐、紧张与愤怒情绪，配合台词重心变化调整面部肌肉发力，展现专业级表现力。

听觉反馈机制解析

角色能实时感知对话内容并作出情境化反馈，强化互动真实感。

例如，电话场景中角色通过眼神变化、眉头收紧等细节，呈现边听边消化信息的自然状态。

会议场景演示显示，角色能针对对方发言即时传递疲惫、不耐烦等情绪，准确还原真实交互体验。

实时交互能力

模型支持语音指令驱动的角色响应。

用户发出"let’s sing a song"指令后，AI立即进入歌唱状态；要求自我介绍时，角色迅速生成匹配的内容，交互节奏高度拟人化。

长期内容生成

该模型可稳定输出长时间视频内容。

官方案例显示，系统能生成22分钟至48分钟的连续视频，角色形象保持稳定且不出现特征崩坏。

技术架构解析

LPM 1.0突破行业瓶颈，同步实现表现力、实时性与长视频一致性三大目标。

技术团队构建了以人为中心的多模态数据集，融入表演理解与身份感知机制，优化角色交互状态。

底层采用170亿参数扩散Transformer架构，精准建模时空关联与连续动作关系。

通过自注意力机制，系统同步处理表情、口型、动作及帧间连续性，确保行为自然度。

实时交互模块基于因果式流生成器设计，实现低延迟、无限长度对话，延迟控制在毫秒级。

技术团队由多领域专家组成。Ailing Zeng博士毕业于香港中文大学，曾任腾讯混元团队及IDEA研究院研究员，主导互动多模态视频生成研究。

模型技术细节已发表于20余位研究人员的联合论文中。

目前模型处于开发阶段，尚未正式上线。

参考链接：

https://arxiv.org/html/2604.07823v1

[2]https://large-performance-model.github.io/#

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 15000

粉丝 0

量子位各类跨境出海行业相关资讯

总阅读176.1k

粉丝0

内容15.0k