大数跨境

蔡浩宇的AI公司悄悄发布了首个视频大模型

蔡浩宇的AI公司悄悄发布了首个视频大模型 游戏葡萄
2026-04-11
6
导读:终于开始了。

终于开始了。

文/修理


昨日,AilingZeng在X平台发布LPM 1.0——一款基于视频的角色表演模型,支持实时说话、唱歌、倾听、反应和表情生成。


LPM 1.0专为单人全双工音视频对话设计,解决了现有视频生成模型在高表现力、实时推理和长时身份稳定性等方面的瓶颈。


团队构建了以人为中心的多模态数据集,训练17B参数的Base LPM,并将其蒸馏为低延迟流式的Online LPM,实现实时视频生成无限时长身份一致生成细腻拟人化表演


同时开发出首个交互角色表演基准LPM-Bench,在评估中取得SOTA成果,可作为对话代理、直播角色、游戏NPC的通用视觉引擎



根据个人主页信息,AilingZeng隶属于Anuttacon技术团队——蔡浩宇创办的AI公司。她此前曾在腾讯混元团队与AI Lab实验室从事模型研究。


该模型技术论文由24位研究人员参与。葡萄君非技术背景,仅作功能简述:LPM 1.0支持多模态输入,通过1张图片+参考图片(可选)+音频/文本生成角色表演视频,适用于角色对话、直播及游戏NPC的视觉呈现。


模型在言语节奏、目光移动及犹豫思考等微表情上展现真实细节。



LPM 1.0采用多维度身份稳定机制:全局外观参考、多视角身体图像及面部表情参考,精准保持角色身份,避免牙齿、表情纹路等细节的错误生成。


该模型兼容多种角色风格输入:写实、2D动漫、3D游戏和非类人生物,无需微调或领域特定训练。


LPM 1.0支持实时互动,官方表示能在无限交互时长中保持身份一致的生成,并呈现回应前的停顿、身体节奏及目光转移等细节。对话采用全双工(Full-duplex)模式,双方可随时打断与反馈。


此GIF取自45分钟演示对话,基于Online LPM 480P型号生成

非对话场景中,角色亦能展现真实呼吸节奏、自然表演与准确情感表达。


Anuttacon团队指出,LPM 1.0优势在于:高视觉忠实度、精准口型、身份保护与自然感,支持任意长度生成(突破Kling-Avatar 2.0和OmniHuman 1.5的30秒限制)。


该模型适用场景包括:AI对话、游戏NPC互动、虚拟直播、教育辅导及长时直播视频生成。

值得注意的是,Anuttacon团队暂无计划发布模型权重、源代码、在线演示、API或相关产品,此次公开仅用于展示研究进展与学术交流。


葡萄君分析认为,此次披露核心目的在于人才招募。此前消息称,蔡浩宇正全力押注AI领域且团队存在大量人才缺口。LPM可能仅是Anuttacon技术探索方向之一,未来或将推出更多大模型。


蔡浩宇对AI的重视程度在游戏创始人中尤为突出,其本人亲临一线All in。米哈游与Anuttacon、HoYoverse近年的AI布局,正逐步形成清晰的技术探索路径:


Anuttacon成立时提出打造AI原生游戏引擎级平台,开发者输入前提条件即可一键生成智能NPC,快速构建完整游戏世界。从试验性AI游戏《Whispers from the Star》到AI聊天产品AnuNeko,再到LPM 1.0,技术迭代进程清晰可见。


AnuNeko


米哈游及Anuttacon在AI领域的分散动作现逐渐形成体系:


《崩坏:星穹铁道》团队自2023年探索AI应用于角色行为管理、3D建模调优及NPC台词,目标实现“对话永不重复的智能NPC”。


2025年,米哈游发布崩坏IP项目组AI专项招募计划,聚焦“AI驱动提效”(应用AI至游戏开发全流程)与“AI驱动创新”(创造新游戏体验),已搭建AI Agent平台Echo及多个开发管线工具


前阵子,蔡浩宇、刘伟、罗宇皓通过刘伟向上海交通大学捐款支持“AI未来基石基金”,旨在铺路后续AI人才输送。


虚拟角色鹿鸣与《雨之城》(Varsapura)均可能成为AI技术探索载体。《星布谷地》测试中已推出支持自由文字对话的AI NPC。


正如游戏葡萄此前报道,蔡浩宇始终视生成式语言模型与游戏的结合为未来核心,追求打造“酷”的产品。


于他而言,虚拟世界是贯穿始终的灯塔。童年时对“被窝里的小电视”的幻想已因智能手机成为现实;如今,所有AI技术布局与探索,都是他靠近虚拟世界终极目标的必经之路。

【声明】内容源于网络
0
0
游戏葡萄
有前瞻、有判断。
内容 453
粉丝 0
游戏葡萄 有前瞻、有判断。
总阅读28.6k
粉丝0
内容453