大数跨境
0
0

不止于拟人,更迈向“类人”:更懂你的多模态超拟人交互来了!

不止于拟人,更迈向“类人”:更懂你的多模态超拟人交互来了! 讯飞AI虚拟人交互平台
2025-11-24
2
导读:让交互更走心,让AI更懂你。

在2025年科大讯飞全球1024开发者节的现场,数字人“小飞”正与三人畅聊。TA会听能看,记得住对话人的身份、历史信息并给出贴心提醒,观察细节之后能给出详细的信息介绍与位置导览,甚至一键帮忙订票;TA能说会道,高情商回复既自然又灵动,还能用外语和外国朋友谈天说地。TA还化身为数字人林黛玉,形象清丽、语气惟妙惟肖。


特别是在多人聊天时,“小飞”还能理解和分辨到底是在和自己对话,还是多人之间相互聊天,从而判断是否接话和插话。更懂你的交互背后,是科大讯飞多模态技术的持续深耕与迭代带来的创新突



01



在大模型赋能之下,近两年来科大讯飞在多模态交互上逐步突破。


  • 从2023年发布起,讯飞星火大模型的多模态能力持续迭代,多模理解能力技术结合了松耦合与紧耦合多模理解,还在2024年推出了星火图文识别大模型,赋予机器一双灵动的“慧眼”;

  • 2024年1月,超拟人合成技术首发、效果惊艳,同年8月进阶为极速超拟人交互,并正式上线讯飞星火APP全民开放体验,具备更快响应、更懂情绪、更加灵活、更加百变的特点;

  • 2024年10月,科大讯飞重新定义万物智联时代的多模AIUI交互标准,在原有的远场高噪、全双工、多语种多方言能力基础上,升级了多模态能力,新增了超拟人和个性化能力;

在2025年科大讯飞全球1024开发者节上,超拟人多模态交互技术的最新成果再一次呈现在大家眼前,多模态的交互从语音交互拓展到音视频流的实时多模交互。这也充分代表着,我们又让多模态超拟人交互向着类人交互前进了一步


02



为什么我们始终执着于向 “类人交互” 进化?因为人与人的顺畅沟通,从来都是多维度的协同共生。我们靠视觉、听觉 “眼观六路、耳听八方” ,全面捕捉环境与对方信息,用肢体动作、面部表情传递情绪让态度更直观,还能凭 “察言观色” 的共情力读懂话语背后的深层意图。这些人类与生俱来的交互特质,为多模态交互的技术树立了精准的参照系。我们要做的就是让数字人复刻这种自然、深层的沟通逻辑,减少人机交互的隔阂。


  • 麦克风远场识别、3D视觉感知等技术获取信息,在复杂的场景中实现多模态情境感知;

  • 视听觉融合理解、情感语义、个性化记忆等技术,实现复杂意图的理解,不仅能解析模糊表达,也能推理出深层诉求;

  • 多人主动交互、类人举止反馈、超拟人数字人技术,最终让机器与我们的交互变得更有真实感,更具个性化。

03



沿着 “复刻人类沟通逻辑” 的方向,此次发布的多模态超拟人交互技术,在核心环节实现了多项突破性创新,让 “类人” 体验再上一个台阶。

首先,在信息输入的感知层面,此次展示的多模态交互系统具备5米0dB远场高噪语音识别能力,在嘈杂环境中也能精准识别,更加贴合真实的使用和交互场景。


而基于多模态语音增强技术这一系统能够融合语音、人脸、姿态等多模态信息,结合语音和说话人站位来确认多人中的说话人候选,对目标候选说话人进行增强,并且实现音频和说话人的绑定,在多人交互情况下击破了识别难题,在多人、高噪场景下可以自由交互。


同时,在多模态理解技术上,我们创新性地提出说话人引导的注意力增强方案,实现对交互区域的细粒度视觉信息感知,让视觉信息更加准确;进一步提出局部检索增强技术,通过视觉思维链提取局部关键区域,实现远场条件下的局部物体检索增强识别。


其次,在对于输入信息的理解与反馈中,针对多人交互的场景,多人交互理解技术融合了多人对话历史和当前语音活动状态、说话人信息等多重信息,加强了模型对多人复杂场景的理解能力;这样能更好地把握和用户的交互时机,以及交互意图的精准判断,实现了响应速度和响应质量的平衡,既不会“抢答”,也不会“乱答”。


在多轮交互中,多模态交互系统能够实现分钟级情感解析、深度共情,读懂对话人的真实心绪,回应“心领神会”的默契瞬间。

而在输出、表达上,超拟人数字人技术再次进阶,能通过多模态前端定位说话人方位,像真人一样能视线跟随看向当前交互的对象,增强交互的真实感;


数字人的回复也更加自然、共情,得益于多情感语音合成技术创新性研发了多轮上下文信息建模方案,能够对语音交互中的历史多轮QA音频和文本进行编码、感知对话人的情感变化,再通过语音合成大模型的自适应情感合成能力,让数字人的回复合成声音情绪语气随之变化,给出恰当的情感回应,在声音的自然度、情感表达、节奏停顿等细节上表现更好,尤其是在多轮交互中的效果提升显著。


值得一提的是,此次发布会上首发的个性化记忆能力也加入了超拟人交互系统,通过分层式动态记忆体架构,实现了长短期协同的精准用户记忆。结构化推理方案的设计,确保了模型在个性化任务中进行严谨的逻辑推理;借助强化学习在对齐用户个人偏好上持续优化,实现了从“内容个性化”到“沟通风格个性化”的进化,增强了多模态交互的个性化回复能力。


04



这些技术的综合联动与有机耦合,使得AI不再是简单的工具,而是可以融入我们生活各个空间的智能伙伴。从文旅导览到医疗健康,再到政务服务,超拟人数字人正以前所未有的方式理解并参与我们的生活,将技术优势转化为实实在在的场景价值。


讯飞智作作为一站式虚拟人音视频内容生产平台,不仅提供丰富多元的形象与声音,还支持仅凭一张照片、一句话快速生成专属数字人,目前已构建超10万数字分身,500万的声音复刻,广泛赋能教培、金融、文旅、政企等多个业务领域。


讯飞AI虚拟人交互平台聚焦全栈式虚拟人多场景应用服务,让数字IP不仅“动起来”,更能“交互起来”。平台支持零代码快速嵌入小程序、导游机等终端,更提供智能交互机、移动数字人、AI 虚拟人直播机等软硬一体化方案,同时通过终端 SDK、服务端 API、公有云 API 及私有化部署等灵活接入方式,可适配 APP、Web、小程序等多种产品形态。




从开发者节现场“更懂你”的互动,到文旅、医疗、政务的场景深耕,讯飞多模态超拟人数字人的核心竞争力,在于技术与场景的深度耦合:远场识别、视觉感知解决了 “听清看清” 的基础问题,情感理解、语义解析实现了 “读懂心意” 的深层沟通,超拟人表达与个性化记忆则让交互 “更有温度”。这些技术不再是孤立的参数,而是转化为游客耳边的文化故事、患者眼前的清晰指引、群众身边的便捷体验。


未来,随着技术的持续迭代,超拟人数字人将更懂人类的情感与需求,在更多场景中成为不可或缺的智能伙伴。我们也将继续在多模态超拟人交互技术上踏实前行、持续进阶,不断带来新的惊喜。


*文章技术部分来源于科大讯飞研究院公众号



【声明】内容源于网络
0
0
讯飞AI虚拟人交互平台
讯飞AI虚拟人交互平台,依托于讯飞核心的虚拟形象技术及星火认知大模型,为用户提供一系列开箱即用的虚拟人交互应用,可实现低代码搭建、多端口接入、多模板选择、多种语义配置等,致力于为政企、文旅、金融、赛事等打造虚拟人+大模型智能交互新业态。
内容 112
粉丝 0
讯飞AI虚拟人交互平台 讯飞AI虚拟人交互平台,依托于讯飞核心的虚拟形象技术及星火认知大模型,为用户提供一系列开箱即用的虚拟人交互应用,可实现低代码搭建、多端口接入、多模板选择、多种语义配置等,致力于为政企、文旅、金融、赛事等打造虚拟人+大模型智能交互新业态。
总阅读47
粉丝0
内容112