10 月 23-25 日,QCon 全球软件开发大会在上海举办。本次大会以「智驱未来,深耕实践」为主题,邀请近 100 位技术专家,聚焦端侧模型、AI Coding、具身智能等行业关注核心话题,分享实践经验与案例,直面工程一线的挑战与解法。
本次大会共设 20+ 个专题论坛,其中,网易云信音视频技术负责人,流媒体首席架构师吴桐担任「多模态融合技术与创新应用」专题论坛出品人,邀请 Rapport and Speech Graphics、阿里通义实验室的专家,探讨多模态融合技术如何推动人机交互体验的范式变革,通过深度融合文本、图像、音频、视频等多维数据,推动现代 AI 系统突破单模态的认知局限,构建起更接近人类的多维感知与理解能力。网易易盾 AI 算法负责人李雨珂博士担任「大模型安全」专题论坛出品人,邀请浙江大学、腾讯玄武实验室、阿里云的专家学者探讨 AI 安全,特别是如何应对 AI 模型之间的相互欺骗和攻击,以及这种现象对社会和人类的影响。
「多模态融合技术与创新应用」专题论坛出品人吴桐(右一)与部分讲师合影
「大模型安全」专题论坛出品人李雨珂(右一)与部分讲师合影
在智能硬件交互面临体验瓶颈的当下,业界主流通过多模态融合与认知计算技术,推动设备从“机械应答”向“情感共鸣”演进。在此背景下,网易云信资深音视频和智能硬件开发工程师陈策在专题论坛中带来《多模态、多端 GUI 智能体 Mobile-Agent 的技术突破与实践》分享。
数据显示,2023 年全球智能硬件出货量已达 18 亿台,预计 2025 年这个数字将突破 23 亿。巨大的增量从何而来?关键在于“AI 正在将传统硬件「重新做了一遍」”。带屏音箱、陪伴机器人、AI 学习机等新物种成批涌现,当数亿台“AI 升级版”硬件的需求同时爆发,而供应链尚未完全成熟时,一个典型的蓝海窗口已然打开。“谁先占住用户场景,谁就能定义下一代硬件的规则。”
然而,回顾现有智能产品,用户体验“槽点”依然明显:
-
交互碎片化:指令从“放摇滚”跳到“做数学题”,上下文割裂,智能体无法理解连贯意图。
-
记忆的缺失:每次对话都是“初次见面”,硬件无法真正“懂你”。
-
没有情绪价值:回复机械、平淡,无法提供情感上的共鸣与慰藉。
针对以上痛点,网易云信提出了下一代对话式 AI 必须攻克的四大方向:
-
低延迟是基石:对话的流畅感至关重要,目标是让 AI 的回复更快,告别尴尬的等待。
-
更自然的交互:让硬件的回复语气、逻辑都更像人类,而非冰冷的机器。
-
个性化的记忆:硬件应能记住用户的偏好与习惯,成为独一无二的“专属伙伴”。
-
多模态融合:未来的硬件不仅能听会说,还要能看、能动、能反馈,实现全方位的交互。
要实现上述目标,需要一个强大而稳定的技术底座。网易云信的解决方案依托于其核心的实时音视频能力(RTC),构建了一套完整的对话式AI架构:
-
这是网易云信的“王牌”。它拥有覆盖全球的 200 多个节点,通过内部的“赛马机制”和动态路由规划,能智能选择最优传输路径,将端到端延迟稳定地控制在 200 毫秒级别,让跨国、跨区域的 AI 对话如本地一般流畅。
-
在音频处理的每一个环节,云信团队都进行了深度优化。从云端回声消除(AEC)和降噪,到支持多语言自动识别的 ASR(语音识别),再到核心的 AI-Turn 轮次判断技术,共同将 AI 对话的端到端延迟从普遍的 3 秒优化至 1.5-2 秒。
-
在日常对话中,我们常会有“嗯…啊…”的停顿或自我修正。传统 ASR 会因静音而错误地断句,导致意图识别混乱。AI-Turn 能力能智能判断上下文的关联性,将关联性强的话语视为同一轮对话,极大地提升了对话的自然度和准确率。
技术只是手段,让硅基生命拥有“温度”才是目的。从“能对话”到“懂人心”的飞跃,网易云信在以下几个方面做出了深入探索:
-
优雅打断,告别“喋喋不休”:针对不同场景提供灵活的打断方案。在安静环境下支持自然语音打断;在嘈杂环境中,则可配置为按键打断或特定“打断词”触发,避免误操作,让交互更舒心。
-
情绪识别,让 AI 感知你的心情:通过分析用户语音的语调(物理信号)和文字内容,并结合对话上下文与用户记忆,综合判断用户的当前情绪。据此,AI 不仅可以调整回复内容,还能用带有相应情绪的语音进行回应。
-
记忆系统,打造“专属”伙伴:记忆被分为短期(近 10-20 轮对话)、中期(提炼出的重要信息)、长期(形成的用户画像)和预置记忆(专业知识或背景设定)。系统能从中精准召回相关信息,让每一次对话都建立在“理解你”的基础上。
-
多模态扩展,解锁更多场景:方案不仅支持纯音频交互,还能通过 MCP 协议调动硬件能力。例如,在儿童伴学机中,孩子问“这朵花是什么”,设备会自动拍照、识别并语音回答;通过手势即可控制智能小车,实现了 AI 与硬件的深度联动。
目前,这些技术已广泛应用于陪伴机器人(儿童/老人)、IP 玩具(如蛋仔派对玩偶)及情感交互类产品等高附加值领域。特别是情感类产品,通过声纹锁定、情绪识别和声音克隆等能力,提供了极高的情绪价值和利润率。
展望未来,陈策表示,网易云信将继续聚焦于产品升级与生态构建,推动对话式 AI 在更多智能硬件场景中落地生根,让有温度、懂人心的 AI 真正走入千家万户。
随着大模型的快速发展以及能力边界的持续突破,其计算成本高、响应延迟大、输出不稳定等挑战已成为规模化落地的核心瓶颈。同时,纯粹的小模型又难以应对复杂场景的理解与生成需求。基于此,网易易盾算法专家胡宜峰在专题论坛中带来《大小模型协同驱动安全升级:基于大小模型协同的数字内容风控实践》分享。
大模型的飞速发展正在各个领域持续突破能力边界,给各个垂直领域带来了新的解题思路。相比于小模型,大模型具有复杂场景理解能力强、泛化能力强、功能通用、创造能力更强的优势,但存在成本和时延高、相对不可控不稳定、 存在隐私和安全问题、迭代相对复杂的劣势。大模型和小模型在多个角度互补,两者结合实现孤立模型到协同系统的范式转变,正成为同时提升系统效果、效率、稳定性的关键路径。
大小模型在数据、分布、功能、场景等角度存在互补性,大小模型协同的核心的思想是难易区分,目标将简单的、客观、域内的数据路由给小模型处理;将复杂、主观、域外的数据路由给大模型处理,从而实现简单问题简单做、复杂问题复杂做的动态路由。
基于这个思路,结合动态网络的思想,网易易盾设计了基于大小模型协同的数字内容风控解决方案,实现了模型、网络深度、尺度、token维度的大小模型协同动态推理:
-
从效果上看,大小模型动态推理协同的解决方案,避免了简单问题复杂做的过学习,也避免了复杂问题简单做的欠学习,提升了复杂场景的理解能力。
-
从效率上看,相比于全量大模型,小模型承载了大部分相对简单数据的流量,使得整体解决方案的部署成本和服务性能有了很大的优化。
-
从可控性角度来看,大小模型直接在知识、标签类别、置信度等角度进行信息交付,小模型的输出可以进一步的矫正大模型的prompt和结果,大模型可以为小模型生成、收集和标注数据,同时可以进一步在结果层面进行融合。
所以大小模型融合的方案,可以一定程度上缓解单一大模型由于内在随机性、幻觉、偏置等原因产生的不可控与不稳定。带来整体效果、效率和稳定性的协同提升。
内容风控场景存在着数据极度长尾分布、标签体系复杂多样、场景复杂多样的特点,存在着差异性标准、敏捷响应要求高、实时性要求高的难点。基于大小模型动态协同的内容风控场景解决方案,在模型、网络深度、尺度、token等维度,实现正常内容、简单违规内容、复杂违规内容的多级动态过滤。
面向差异性标准,大小模型协同结合小模型的领域知识和大模型的通用知识,将主观性标准作为提示条件注入多模态大模型,进而便捷的适配不同的主观性标准与边界标准,从而在不更新模型的前提下便捷的适配不同的标准,更细粒度地实现分级分层精准防控与差异化防控。
面向敏捷响应要求,大模型通用知识提供了构建领域能力的基础,在大模型通用能力的基础之上,进一步构建小模型领域能力,从而进一步提升新风险的敏捷响应能力。
面向海量数据的实时性要求,大小模型协同的解决方案,在大模型性能优化的基础之上,通过优化路由路径,在效果最优的前提下,尽量侧重小模型计算,从而提升整体系统的并发和性能。
未来,随着大模型和 Agent 的发展,大小模型协同会朝着更加智能的迭代式交互协同的方向发展,实现边缘计算与端云协同的深度融合。基于大小模型协同的发展,内容风控场景会在风险提前预判、内容认知推理、敏捷迭代方面有更大的突破。