撸猫撸出SOTA！3个00后2个月，造出史上最快流式音视频社交模型- 大数跨境

量子位

2026-06-20

导读：速度快7倍，成本只有Veo 3的1/2000

AI 新潮流：流式音视频模型“缅因猫”问世

全球流式音视频模型赛道迎来重大突破，一款名为缅因猫（MaineCoon）的 SOTA 级模型正式亮相。该模型由来自中国的初创团队 Catnip（猫薄荷）研发，其核心特性在于能够像粘人的宠物一样，实时跟随用户状态进行连续互动，实现真正的“边生成边播放”与“音画同出”。

MaineCoon 不仅支持长达 30 分钟以上的连续生成，更在推理速度与成本控制上创下行业纪录。在单张 H100 显卡上，22B 参数量的模型可跑出 47.5 FPS 的帧率，位居同赛道第一；即便在成本较低的 RTX Pro 6000 上，也能稳定保持 30 FPS 以上的实时运行速度。其推理成本极低，满负载状态下每秒仅需 0.00025 美元，大幅降低了应用门槛。

该技术报告发布后迅速引发关注，连 LTX 官方也主动寻求合作。以下将从效果表现、技术架构及团队背景三个维度深入解析。

效果展示：重新定义社交交互“活人感”

与侧重物理规律模拟的通用音视频模型不同，MaineCoon 专注于社交交互场景，致力于解决人物细节不自然、音画不同步等痛点，打造极致的“活人感”。

亚秒级音视频流式生成

流式生成要求模型在推理过程中实时输出内容。MaineCoon 将生成单元压缩至亚秒级，指令发出后 1 秒内即可呈现首帧，并支持在生成过程中无缝接入新指令。无论是调整角色语气、切换表情，还是进行实时问答，模型均能流畅响应，提供如同真人视频对话般的交互体验。

业界领先的推理速度

实测数据显示，MaineCoon 的生成速度是同类流式模型的 7 倍。即便在持续生成一整天的情况下，其单卡部署能力仍能维持高帧率输出。这种高速推理并未牺牲质量，反而在情感表达丰富度与动作连贯性上表现优异，能够细腻还原光影变化与微表情。

无限时长与高一致性

MaineCoon 实现了连续 10 分钟以上的音视频生成，且全程保持画质清晰、人物一致及音画同步。官方自建的首个社交短视频基准测试SocialVideo Bench显示，该模型在密集演讲、双人互动、情绪表演等七大场景中，综合得分 0.934，超越 SoulX-FlashTalk 等主流模型，刷新 SOTA 纪录。

技术揭秘：三层训练与 Agentic 推理框架

MaineCoon 的卓越性能源于其创新的训练策略与工程架构。

三阶段训练框架

第一步：自重采样（Self-Resampling）。通过在训练中引入降质版历史帧，消除推训偏差，确保模型在长序列生成中保持稳定。

第二步：流式表征对齐。利用冻结的 V-JEPA 2 视觉编码器进行蒸馏监督，加速跨模态语义结构的学习，提升训练效率。

第三步：域感知偏好优化（DPO）+ 强化在线策略蒸馏（ROPD）。针对舞蹈、对话等不同场景训练偏好专家模型，并通过强化蒸馏整合为轻量化的流式策略。

在基础设施方面，团队通过参数分摊、序列并行及预计算存储等工程优化，仅用 10k GPU 小时和不到 100 万条数据便完成了 22B 模型的训练。

Agentic 推理框架

推理端采用了由Director、Cache Manager和Buffer Controller构成的智能控制系统：

Director（导演）：负责叙事规划与实时纠错，通过前向修复机制遏制长视频生成中的畸变问题。
Cache Manager（缓存管理器）：管理 KV 缓存，保留关键记忆锚点并定期修正全局外观漂移。
Buffer Controller（缓冲控制器）：平衡生成速度与播放节奏，确保交互指令的低延迟响应。

未来愿景：构建社交世界模型

Catnip 团队将 MaineCoon 定位为“社交世界模型”的渲染层突破。与传统模拟物理世界的模型不同，社交世界模型以人为中心，旨在实现感知用户情绪、预测社交行为并实时生成反馈的闭环。

下一步，团队计划摆脱半双工交互模式，实现人类式的连续、多模态双向实时互动，并将该技术落地为可交互的内容平台。

Catnip 是一支低调而高效的团队，成立大半年未曾公开露面，却已获得红杉、明势等头部机构投资。创始人杨姝瑞拥有 TikTok 及 PixVerse 产品经验，首席科学家谢泽柯教授则在百度研究院及顶级 AI 会议中有深厚积累。团队采用"AI Native"研发模式，仅用 2 个月便完成了从训练到全栈交付的过程。

MaineCoon 的出现标志着生成式 AI 正从被动工具转向主动社交参与者，下一代社交平台的底层引擎已然启动。