🔮当地下车库没有信号,语音助手突然“失灵”;当涉及商业机密,你不敢将文件上传云端分析……这些日常困扰,正在被端侧智能这一新的技术路径破解。
端侧智能的崛起,让手机等终端设备无需依赖云端就能实现复杂的AI能力。这不仅是技术的进步,更是对隐私安全、实时响应和个性化体验的突破。
终端设备的"脑力觉醒":从资源浪费到智能突破
⚙️手机内部是一个精密的计算系统,但传统资源调度方式往往导致大核CPU过载、小核CPU闲置。Mobile GPU的利用率较低,大量算力被浪费。
🛠️新一代端侧调度与编译工具能自动分析GPU硬件特性,生成高效并行计算方案。通过将单分支拆解为多分支并行处理,在主流芯片上实现2–5倍推理加速,且精度损失可控。
端侧大模型:为终端量身打造的"智能引擎"
📱直接将云端大模型压缩到终端设备,常面临性能严重下降的问题。专为终端设计的稀疏架构成为破局关键。
🤖SmallThinker模型专为终端设备设计,智力水平超越了同尺寸甚至更大尺寸的开源模型,充分证明其“原生”架构设计的优越性。
⚡PowerInfer推理框架让大模型推理速度加快了 11 倍。而且不用量化,使用 FP16 精度,也能让 40B 模型在个人电脑上运行;如果加入量化,2080 Ti 也能流畅运行 70B 模型。
打破"不可能三角":小算力如何撬动大智能
⚠️端侧智能面临的核心矛盾是:模型能力要强,但设备算力、电量有限。出现“性能—能效—智能”的“不可能三角”。这就像既要马儿跑得快,又要马儿不吃草。
🔗软硬协同优化的全栈设计思路提供了解决方案。在定义 loss function 时,同时纳入算法与系统变量,不仅优化模型精度,还优化系统性能、能耗、延迟等问题。通过全栈协同,实现"小算力撬动大智能"
智能体时代:终端设备的"感知-决策"能力升级
📱终端智能的终极形态是让设备具备自主感知与决策能力。清华大学团队聚焦于移动端(端侧)视觉智能,特别是在实时深度估计、多源数据融合与动态场景全焦图像合成等方向,让普通手机摄像头就能实现专业级空间感知:
-
• MobiDepth专为移动设备设计的轻量级双目深度估计算法,通过优化实现实时低功耗深度图生成,核心贡献在于模型压缩、硬件感知设计及资源调度。 -
• MobiFuse引入多模态数据融合策略,实现高精度和高鲁棒的深度感知,在复杂场景下性能稳定,适用于多种应用。 -
• FocusX提出面向动态场景的全焦图像合成方法,结合深度估计与运动补偿技术,在设备端高效运行满足实时拍摄需求 。
这些技术使手机从"记录工具"进化为"空间交互入口",在视频会议中自动聚焦发言人、直播时实时生成3D背景。
端侧智能的三大价值革命
隐私保护: 所有计算在本地完成,数据永不离开你的设备,从根本上解决隐私担忧。
实时响应: 延迟从百毫秒级降至毫秒级,AR/VR等体验更加流畅自然。
个性化: 设备基于你的使用习惯持续进化,实现"千机千面"的专属智能体验。
🌟端侧模型与智能体的发展正深刻改变着人工智能的应用格局,我们正逐步突破端侧智能的瓶颈,实现“小算力撬动大智能”的宏伟目标。当算法、硬件与使用场景深度结合,我们手中的设备不再只是工具,而是真正的智能伙伴。
📰 信息来源
本文整理的技术内容摘自 CNCC 2025(中国计算机大会)现场报告与论坛分享。CNCC 是国内外知名学者和企业专家汇聚的年度盛会,关注前沿技术趋势与创新成果。
📚 知识充电站
如果你希望持续获取 AI 系统优化、大模型、CUDA 编程等方向的前沿解析与技术干货,欢迎关注我们的公众号 「InfiniTensor」。在这里,我们不仅分享知识,更致力于构建一个共同成长的学习社区。

