

不止于拟人，更迈向“类人”：更懂你的多模态超拟人交互来了！

讯飞AI虚拟人交互平台

2025-11-24

导读：让交互更走心，让AI更懂你。

在2025年科大讯飞全球1024开发者节的现场，数字人“小飞”正与三人畅聊。TA会听能看，记得住对话人的身份、历史信息并给出贴心提醒，观察细节之后能给出详细的信息介绍与位置导览，甚至一键帮忙订票；TA能说会道，高情商回复既自然又灵动，还能用外语和外国朋友谈天说地。TA还化身为数字人林黛玉，形象清丽、语气惟妙惟肖。

特别是在多人聊天时，“小飞”还能理解和分辨到底是在和自己对话，还是多人之间相互聊天，从而判断是否接话和插话。更懂你的交互背后，是科大讯飞多模态技术的持续深耕与迭代带来的创新突破。

在大模型赋能之下，近两年来科大讯飞在多模态交互上逐步突破。

从2023年发布起，讯飞星火大模型的多模态能力持续迭代，多模理解能力技术结合了松耦合与紧耦合多模理解，还在2024年推出了星火图文识别大模型，赋予机器一双灵动的“慧眼”；
2024年1月，超拟人合成技术首发、效果惊艳，同年8月进阶为极速超拟人交互，并正式上线讯飞星火APP全民开放体验，具备更快响应、更懂情绪、更加灵活、更加百变的特点；
2024年10月，科大讯飞重新定义万物智联时代的多模AIUI交互标准，在原有的远场高噪、全双工、多语种多方言能力基础上，升级了多模态能力，新增了超拟人和个性化能力；

在2025年科大讯飞全球1024开发者节上，超拟人多模态交互技术的最新成果再一次呈现在大家眼前，多模态的交互从语音交互拓展到音视频流的实时多模交互。这也充分代表着，我们又让多模态超拟人交互向着类人交互前进了一步。

为什么我们始终执着于向 “类人交互” 进化？因为人与人的顺畅沟通，从来都是多维度的协同共生。我们靠视觉、听觉 “眼观六路、耳听八方” ，全面捕捉环境与对方信息，用肢体动作、面部表情传递情绪让态度更直观，还能凭 “察言观色” 的共情力读懂话语背后的深层意图。这些人类与生俱来的交互特质，为多模态交互的技术树立了精准的参照系。我们要做的就是让数字人复刻这种自然、深层的沟通逻辑，减少人机交互的隔阂。

麦克风远场识别、3D视觉感知等技术获取信息，在复杂的场景中实现多模态情境感知；
视听觉融合理解、情感语义、个性化记忆等技术，实现复杂意图的理解，不仅能解析模糊表达，也能推理出深层诉求；
多人主动交互、类人举止反馈、超拟人数字人技术，最终让机器与我们的交互变得更有真实感，更具个性化。

沿着 “复刻人类沟通逻辑” 的方向，此次发布的多模态超拟人交互技术，在核心环节实现了多项突破性创新，让 “类人” 体验再上一个台阶。

首先，在信息输入的感知层面，此次展示的多模态交互系统具备5米0dB远场高噪语音识别能力，在嘈杂环境中也能精准识别，更加贴合真实的使用和交互场景。

而基于多模态语音增强技术，这一系统能够融合语音、人脸、姿态等多模态信息，结合语音和说话人站位来确认多人中的说话人候选，对目标候选说话人进行增强，并且实现音频和说话人的绑定，在多人交互情况下击破了识别难题，在多人、高噪场景下可以自由交互。

同时，在多模态理解技术上，我们创新性地提出说话人引导的注意力增强方案，实现对交互区域的细粒度视觉信息感知，让视觉信息更加准确；进一步提出局部检索增强技术，通过视觉思维链提取局部关键区域，实现远场条件下的局部物体检索增强识别。

其次，在对于输入信息的理解与反馈中，针对多人交互的场景，多人交互理解技术融合了多人对话历史和当前语音活动状态、说话人信息等多重信息，加强了模型对多人复杂场景的理解能力；这样能更好地把握和用户的交互时机，以及交互意图的精准判断，实现了响应速度和响应质量的平衡，既不会“抢答”，也不会“乱答”。

在多轮交互中，多模态交互系统能够实现分钟级情感解析、深度共情，读懂对话人的真实心绪，回应“心领神会”的默契瞬间。

而在输出、表达上，超拟人数字人技术再次进阶，能通过多模态前端定位说话人方位，像真人一样能视线跟随看向当前交互的对象，增强交互的真实感；

数字人的回复也更加自然、共情，得益于多情感语音合成技术创新性研发了多轮上下文信息建模方案，能够对语音交互中的历史多轮QA音频和文本进行编码、感知对话人的情感变化，再通过语音合成大模型的自适应情感合成能力，让数字人的回复合成声音情绪语气随之变化，给出恰当的情感回应，在声音的自然度、情感表达、节奏停顿等细节上表现更好，尤其是在多轮交互中的效果提升显著。

值得一提的是，此次发布会上首发的个性化记忆能力也加入了超拟人交互系统，通过分层式动态记忆体架构，实现了长短期协同的精准用户记忆。结构化推理方案的设计，确保了模型在个性化任务中进行严谨的逻辑推理；借助强化学习在对齐用户个人偏好上持续优化，实现了从“内容个性化”到“沟通风格个性化”的进化，增强了多模态交互的个性化回复能力。

这些技术的综合联动与有机耦合，使得AI不再是简单的工具，而是可以融入我们生活各个空间的智能伙伴。从文旅导览到医疗健康，再到政务服务，超拟人数字人正以前所未有的方式理解并参与我们的生活，将技术优势转化为实实在在的场景价值。

讯飞智作作为一站式虚拟人音视频内容生产平台，不仅提供丰富多元的形象与声音，还支持仅凭一张照片、一句话快速生成专属数字人，目前已构建超10万数字分身，500万的声音复刻，广泛赋能教培、金融、文旅、政企等多个业务领域。

讯飞AI虚拟人交互平台则聚焦全栈式虚拟人多场景应用服务，让数字IP不仅“动起来”，更能“交互起来”。平台支持零代码快速嵌入小程序、导游机等终端，更提供智能交互机、移动数字人、AI 虚拟人直播机等软硬一体化方案，同时通过终端 SDK、服务端 API、公有云 API 及私有化部署等灵活接入方式，可适配 APP、Web、小程序等多种产品形态。

从开发者节现场“更懂你”的互动，到文旅、医疗、政务的场景深耕，讯飞多模态超拟人数字人的核心竞争力，在于技术与场景的深度耦合：远场识别、视觉感知解决了 “听清看清” 的基础问题，情感理解、语义解析实现了 “读懂心意” 的深层沟通，超拟人表达与个性化记忆则让交互 “更有温度”。这些技术不再是孤立的参数，而是转化为游客耳边的文化故事、患者眼前的清晰指引、群众身边的便捷体验。

未来，随着技术的持续迭代，超拟人数字人将更懂人类的情感与需求，在更多场景中成为不可或缺的智能伙伴。我们也将继续在多模态超拟人交互技术上踏实前行、持续进阶，不断带来新的惊喜。

*文章技术部分来源于科大讯飞研究院公众号

【声明】内容源于网络

讯飞AI虚拟人交互平台

讯飞AI虚拟人交互平台，依托于讯飞核心的虚拟形象技术及星火认知大模型，为用户提供一系列开箱即用的虚拟人交互应用，可实现低代码搭建、多端口接入、多模板选择、多种语义配置等，致力于为政企、文旅、金融、赛事等打造虚拟人+大模型智能交互新业态。

内容 112

粉丝 0

讯飞AI虚拟人交互平台讯飞AI虚拟人交互平台，依托于讯飞核心的虚拟形象技术及星火认知大模型，为用户提供一系列开箱即用的虚拟人交互应用，可实现低代码搭建、多端口接入、多模板选择、多种语义配置等，致力于为政企、文旅、金融、赛事等打造虚拟人+大模型智能交互新业态。

总阅读47

粉丝0

内容112