大数跨境
0
0

美团 LongCat 再放大招:从“最快”到“全面”,Omni 模型开启实时全模态交互

美团 LongCat 再放大招:从“最快”到“全面”,Omni 模型开启实时全模态交互 HelloGitHub
2025-11-03
0

AI 的“五感”正在被同时唤醒。

过去,我们与 AI 对话时,它只能“听懂”文字;后来,它学会了“看”图片;再后来,它开始“理解”视频和音频。但这些能力往往是割裂的——我们不得不在文生图、语音助手、视频分析等不同工具间频繁切换。

理想的 AI 交互不该如此。它应像人一样,在同一个对话中,既能看、能听、能说,又能无缝理解并回应我们的需求。如今,“全模态”(Omni-modal)开源模型已经到来。

上周五,美团 LongCat 团队正式开源了全新的全模态模型——LongCat-Flash-Omni。它支持文本、图像、音频、视频的输入与输出,具备实时音视频交互能力,让 AI 的理解与表达更加自然流畅。

GitHub 地址:github.com/meituan-longcat/LongCat-Flash-Omni

如果说 LongCat-Flash 系列此前凭借「快」实现了破圈突破,那么 LongCat-Flash-Omni 的「全」则是在速度之上,进一步拓展了格局,带来了更全面的升级体验。

一、Omni 时代:全模态交互,实时智能

LongCat-Flash-Omni 的核心定位是全模态交互,实时智能。这是美团对下一代 AI 交互的两个关键洞察:

  • 全模态交互:它并非多个单模态模型的“缝合怪”。官方的技术报告显示,LongCat-Flash-Omni 在 OmniBench 和 WorldSense 等权威全模态基准测试中,均达到了开源 SOTA(最先进)水平。模型支持文本、图像、音频、视频的任意组合输入,并能以文本或语音输出。
  • 实时智能:它不仅「全」,而且「快」。模型延续了 Flash 系列的低延迟基因,实现毫秒级的端到端响应延迟。这意味着,用户可以像视频通话一样,实时地与 AI 进行音视频互动,AI 也能即时给予语音和视觉的反馈

二、 LongCat-Flash-Omni 内测体验

我有幸第一时间拿到了 LongCat-Flash-Omni 的 Android 客户端内测权限,并体验了其核心的实时视频通话功能。(据了解,iOS 版本的视频通话功能也将在不久后上线)。 

在分别体验了视频通话和语音通话后,不得不说,LongCat 的语音包选得不错。给我留下最深刻的印象,是其极快的响应速度流畅的交互。它真正实现了毫秒级的即时打断——你可以在它说话的任何时刻“插嘴”,它会立刻停止当前语音输出,并无缝理解你的新指令。

这种极致的「快」与「持续记忆」能力结合时,应用场景的想象空间瞬间被打开。比如,你可以开启视频通话,让 LongCat 作为你的“烹饪教练”或“健身教练”,随时互动、即时提问,获得流畅的指导。

当你面对美景却苦于词穷,只需掏出手机,给 LongCat 打个视频电话。让它“看”一眼,便能为此情此景即兴赋诗,再也不必为朋友圈配文而发愁了。

三、拆解 Omni:如何做到“全”和“快”?

「全面」和「实时」的背后,离不开 LongCat 技术团队在架构、规模化和训练策略上的多重创新突破。

3.1 560B 参数“巨兽”,毫秒级“闪电”响应

在 AI 领域,模型规模、性能和推理速度一直被视为难以兼顾的“不可能三角”。LongCat-Flash-Omni 正在尝试突破这一行业瓶颈。

  • 总参数达 560B,激活参数仅 27B
  • 基于 LongCat-Flash 创新的 ScMoE(Shortcut-connected Mixture-of-Experts)架构,包含「零计算专家」,以极低计算量撬动庞大模型知识库,实现了规模与效率的兼顾。
  • 凭借强大的工程架构,模型支持 128K tokens 的上下文窗口,可实现超过 8 分钟的实时音视频交互,在多模态长时记忆、多轮对话和时序推理等场景中表现优越。

3.2 渐进式融合训练,不让任何单模态掉队

全模态训练面临的最大挑战之一,是数据异质性——文本、音频、视频的数据分布天差地别,若强行“一锅炖”,很容易导致模型某些单模态能力退化。

LongCat-Flash-Omni 的解法是渐进式早期多模融合训练策略

这如同为模型量身定制了一份“课程表”:先夯实纯文本(LLM)基础,逐步引入语音(学会听),最后融入图像和更复杂的视频(学会看)。这种「No Single Modality Left Behind」训练范式,确保 LongCat-Flash-Omni 在成为全能选手的同时,语音、视觉等单模态成绩依然顶尖,无短板

3.3 黑科技训练基建:效率直追纯文本

训练一个 560B 的全模态模型,难度可想而知。

LongCat-Flash-Omni 技术团队交出了一份令人惊叹的答卷。他们研发出了模态解耦的并行训练(modality-decoupled parallel training)方案,通过极致的系统优化,最终实现了:Omni 全模态训练的吞吐效率,达到了纯文本训练效率的 90% 以上!

这不仅展现了美团技术团队深厚的工程实力,也为 LongCat 迈向更加全面的未来提供了底气。

四、写在最后

从「最快」到「专业」,再到「全面」,LongCat-Flash-Omni 的开源,不仅是美团技术的再一次亮剑,更为开源社区带来了一个兼具极致性能与实时交互的全能型选手。

  • GitHub:github.com/meituan-longcat/LongCat-Flash-Omni
  • Hugging Face:huggingface.co/meituan-longcat/LongCat-Flash-Omni

即刻体验:longcat.chat

- END -

👆 关注「HelloGitHub」第一时间收到更新👆

【声明】内容源于网络
0
0
HelloGitHub
分享 GitHub 上有趣、入门级的开源项目。
内容 628
粉丝 0
HelloGitHub 分享 GitHub 上有趣、入门级的开源项目。
总阅读172
粉丝0
内容628