大数跨境
0
0

专题|联通元景语音交互大模型:极致低延迟!革新用户体验

专题|联通元景语音交互大模型:极致低延迟!革新用户体验 上海联通金融科技研究院
2025-09-19
1
导读:近日,中国联通自主研发的央企首个端到端语音交互大模型正式上线元景MaaS平台,在交互延迟、全双工打断、合成自然

近日,中国联通自主研发的央企首个端到端语音交互大模型正式上线元景MaaS平台,在交互延迟、全双工打断、合成自然度、智能体工具能力等核心技术维度展现出行业领先的综合性能。致力于为用户带来“实时响应、自然流畅、互动零障碍”的语音交互体验,推动人机交互向更加智能化、人性化的方向升级。



四大核心能力革新用户体验






元景语音交互大模型凭借自主研发四大核心能力革新用户体验。



端到端低延迟技术让语音输入与系统响应实现毫秒级衔接,使得用户与交互大模型的对话流畅度趋近真人交流,彻底解决传统模型存在的卡顿、延迟、应答滞后等痛点,为实时语音交互场景(例如在线客服系统)提供更高效、更自然的交互解决方案。经实测验证,元景语音交互模型在响应时间维度上处于业界领先水平。



传统级联交互效果





元景端到端交互效果



注:采用各业界模型对应的语音交互产品作为评测对象,语音输入测试样例尽可能保证触发各交互模型本身的推理机制,录制完整交互视频进行交互延迟统计,主观评测语音合成自然度。



全双工通信技术打破传统单工交互局限,依托用户语音输入与交互模型推理的并发处理机制,显著减少了全双工通信场景下的响应延迟。支持用户与语音交互大模型实时双向对话,随时获取并响应用户语音输入指令,双方随时插话、追问,贴近真人交谈场景,沟通更灵活高效。



流式高自然度合成技术能高效稳定地适配实时语音交互场景无论是温柔提醒还是专业解答,语音输出都能精准适配相应情感,赋予语音鲜活表现力,展现了堪比人类的高自然度音色效果。



智能体工具链技术能够实现联网搜索功能,拓展了语音交互边界。通过实时抓取最新资讯,快速检索全网信息,真正实现“一问即得,一令即达”,让语音交互成为便捷生活与高效工作的得力助手。






元景语音交互大模型自研核心技术






中国联通数据科学与人工智能研究院自主研发的元景语音交互大模型,基于业界主流的Encoder-Decoder 技术架构构建。该模型通过语音Encoder模块提取输入语音的声学特征,依托大语言模型(LLM)架构的Decoder模块高效完成语义逻辑推理,实现语音交互全流程的端到端一体化建模和训练。



元景语音交互大模型架构



模型创新采用分阶段训练策略,确保模型在不同阶段分别专注于特定任务,有效规避多任务并行训练导致的收敛效率下降问题。在保障基座模型(LLM)性能无损前提下,实现语音模态与文本模态的精确对齐。在第一阶段训练中,更新适配器模块(Adaptor)并冻结模型的其它模块,进行语音输入模态和文本模态对齐训练,使LLM具备理解语音输入的能力。在第二阶段训练中,激活语音解码器模块(Audio Decoder)并冻结其他模块,实现文本模态和语音输出模态的精确对齐。最后,语音编码器(Audio Encoder)保持冻结,将适配器模块、LLM以及语音解码器模块全部激活,进行模型的全参数微调,从而使模型整体性能达到最优。



元景语音交互大模型分阶段增量训练方法



此外,还自研了流式自回归结构的语音解码器,采用智能分块策略与动态处理机制,实现语音特征生成的无缝衔接,在大幅缩短首包响应时间同时,保证流式语音输出的高自然度。




元景语音交互大模型赋能多场景应用






中国联通数据科学与人工智能研究院基于元景语音交互大模型打造的端到端语音交互服务已正式上线元景MaaS平台。除了通用语音交互功能外,还支持用户自定义知识库、智能体联网搜索、自定义插件和MCP协议扩展等功能,赋能开发者快速构建具备领域专属知识的语音智能体,实现灵活高效且高度定制化的语音交互应用开发,满足不同场景的个性化需求并在智能家居、智慧教育、Chat Bot等场景实现应用落地



语音交互大模型上线元景MaaS平台



中国联通积极落实“人工智能+”行动,依托算网基础设施与全国渠道覆盖优势,打造多模共生、能力边界持续扩展的元景模型家族,保持模态丰富度业界一流;打造普惠速成的元景MaaS平台和万悟智能体开发平台,构建多模态RAG和多智能体协作等差异化能力,集约化赋能千行百业模型和应用打造,助力实体经济高质量发展,让人工智能更简单。


本文转自联通数智


END


【声明】内容源于网络
0
0
上海联通金融科技研究院
上海联通金融科技研究院信息发布和动态分享
内容 174
粉丝 0
上海联通金融科技研究院 上海联通金融科技研究院信息发布和动态分享
总阅读201
粉丝0
内容174