阿里云的硬件“野心”：将通义大模型注入每一台终端- 大数跨境

亿邦动力

2026-01-09

文丨胡镤心

阿里云发布多模态交互开发套件，加速AI硬件落地

1月8日，在阿里云通义智能硬件展上，阿里云正式发布多模态交互开发套件。该套件集成千问、万相、百聆三大通义基础大模型，预置十余款覆盖生活休闲、办公效率等领域的Agent与MCP工具，具备“听、看、思、动”能力，可广泛适配AI眼镜、学习机、陪伴玩具、智能机器人等终端设备。

当前，多模态大模型已初步具备环境感知与物理世界交互能力，但基础模型在成本、时延、功能丰富度与效果一致性方面，仍难以满足终端设备规模化落地需求。阿里云多模态交互开发套件聚焦低门槛开发、高响应速度与强场景覆盖，为硬件厂商和解决方案商提供开箱即用的平台级支撑。

套件已适配超30款主流ARM、RISC-V及MIPS架构终端芯片，覆盖市面绝大多数硬件平台。后续将与玄铁RISC-V实现软硬全链路协同优化，推动通义大模型家族在RISC-V架构上的高效部署与极致推理性能。

除通义模型家族外，阿里云还推出面向AI硬件交互的专有模型，全面支持全双工语音、视频、图文等多模态输入。端到端语音交互时延低至1秒，视频交互时延控制在1.5秒以内。

套件内置十余款MCP工具与场景化Agent，涵盖出行规划、旅行攻略、本地探索等高频需求。同时深度接入阿里云百炼平台生态，支持第三方开发者MCP/Agent模板导入，并通过A2A协议兼容外部Agent，显著拓展业务构建灵活性。

阿里云同步展示了面向智能穿戴、家庭陪伴机器人、具身智能等方向的落地实践：

AI眼镜方案：基于千问VL、百聆CosyVoice等模型，构建感知—规划—执行—长期记忆四层交互链路，一站式实现同声传译、拍照翻译、多模态备忘录、录音转写等功能，显著提升交互自然度与回答准确率；
家庭陪伴机器人方案：依托千问模型与多模态套件，支持异常实时监测与告警推送，同时支持关键词视频检索、自然语言对话及IoT设备联动控制。

据Gartner最新发布的《GenAI技术创新指南》系列报告，阿里云在GenAI云基础设施、GenAI工程、GenAI模型、AI知识管理应用四大维度全部位列“新兴领导者象限”，是唯一入选全部四项的亚太厂商。

【声明】内容源于网络

亿邦动力

各类跨境出海行业相关资讯

内容 276

粉丝 0

亿邦动力各类跨境出海行业相关资讯

总阅读5.9k

粉丝0

内容276