文丨胡镤心
阿里云发布多模态交互开发套件,加速AI硬件落地
1月8日,在阿里云通义智能硬件展上,阿里云正式发布多模态交互开发套件。该套件集成千问、万相、百聆三大通义基础大模型,预置十余款覆盖生活休闲、办公效率等领域的Agent与MCP工具,具备“听、看、思、动”能力,可广泛适配AI眼镜、学习机、陪伴玩具、智能机器人等终端设备。
破解硬件接入大模型的四大瓶颈
当前,多模态大模型已初步具备环境感知与物理世界交互能力,但基础模型在成本、时延、功能丰富度与效果一致性方面,仍难以满足终端设备规模化落地需求。阿里云多模态交互开发套件聚焦低门槛开发、高响应速度与强场景覆盖,为硬件厂商和解决方案商提供开箱即用的平台级支撑。
全芯片平台兼容,强化RISC-V软硬协同
套件已适配超30款主流ARM、RISC-V及MIPS架构终端芯片,覆盖市面绝大多数硬件平台。后续将与玄铁RISC-V实现软硬全链路协同优化,推动通义大模型家族在RISC-V架构上的高效部署与极致推理性能。
端侧专用模型优化,交互时延大幅降低
除通义模型家族外,阿里云还推出面向AI硬件交互的专有模型,全面支持全双工语音、视频、图文等多模态输入。端到端语音交互时延低至1秒,视频交互时延控制在1.5秒以内。
开箱即用的Agent生态与开放扩展能力
套件内置十余款MCP工具与场景化Agent,涵盖出行规划、旅行攻略、本地探索等高频需求。同时深度接入阿里云百炼平台生态,支持第三方开发者MCP/Agent模板导入,并通过A2A协议兼容外部Agent,显著拓展业务构建灵活性。
多场景解决方案现场亮相
阿里云同步展示了面向智能穿戴、家庭陪伴机器人、具身智能等方向的落地实践:
- AI眼镜方案:基于千问VL、百聆CosyVoice等模型,构建感知—规划—执行—长期记忆四层交互链路,一站式实现同声传译、拍照翻译、多模态备忘录、录音转写等功能,显著提升交互自然度与回答准确率;
- 家庭陪伴机器人方案:依托千问模型与多模态套件,支持异常实时监测与告警推送,同时支持关键词视频检索、自然语言对话及IoT设备联动控制。
阿里云入选Gartner生成式AI四大新兴领导者
据Gartner最新发布的《GenAI技术创新指南》系列报告,阿里云在GenAI云基础设施、GenAI工程、GenAI模型、AI知识管理应用四大维度全部位列“新兴领导者象限”,是唯一入选全部四项的亚太厂商。

