俞佳:生成式语音与用户粘性的密切关系
「 AI 心理咨询从纯文本交互切换到语音交互后,即使内容完全相同,用户的好感度和咨询后的评分也显著提升。」
俞佳
西湖心辰联合创始人
乔齐:基于大语言模型的全双工对话模式探索
「全双工对话需要两个关键能力:一是对用户的打断请求做出及时响应;二是在合适的时机主动打断用户。」
乔齐
声网 AI 算法工程师
张博闻:新一代语音大模型 Abab-speech-01 的突破性应用
「大模型能真正理解文本在讲什么,『哈哈哈』是笑,而不是『哈』字,后面的文本也会根据这段文本的内容表现出比较高兴的情感。」
张博闻
MiniMax 资深音频算法专家
焦文奎:商汤科技多模态模型解决方案与创新应用
品牌/地标识别:例如博物馆展品讲解
人像/场景理解:例如电商直播中的穿着打扮指导
数字人:与声网合作,探索陪聊、带货等场景,并解决弱网环境下的低延时需求,未来将实现音进音出,并逐步加入视觉模块。
AI 面试官:结合慢推理模型,用于校招和社招初面。
-
音视频美颜美体美型。
「我们希望在大装置、大模型和应用的三位一体架构下,能够推进整体算力基础设施的发展。」
焦文奎
商汤科技数字文娱解决方案负责人
翟忠武:基于面壁小钢炮训练的对话模型实践
快慢系统融合:模型整合了「慢思考」(分析用户画像、记忆和聊天记录)和「快思考」(快速生成回复)两个系统,显著提升了模型的整体能力和响应效率。
多模态架构设计: 模型支持文字和语音的同步输入输出,并采用流式处理和 Beam Search 解码,以适应多样化的交互场景。
创新的训练方法: 团队采用独特的训练方法,同时训练模型的「接龙」和「对话」能力,并在后期引入高质量数据进行强化学习。
-
模型稀疏化技术: 借鉴人脑神经元连接的稀疏性,通过稀疏化技术大幅提升模型效率,降低计算资源消耗。
「大模型会随着时间的发展智能密度会越来越高。我们总结成是『面壁定律』,简单来说大模型知识密度每 8 个月会提高一倍。」
翟忠武
面壁智能算法 VP
圆桌讨论:实时多模态 AI 的 N 种可能


