大数跨境
0
0

高通万卫星:混合AI与分布式协同是未来 | MEET2026

高通万卫星:混合AI与分布式协同是未来 | MEET2026 量子位
2025-12-11
3
导读:产业正处于从生成式AI向智能体AI演进的窗口期
编辑部 整理自 MEET2026
量子位 | 公众号 QbitAI

从“感知”到“生成”,再到具备自主行动能力的“智能体”,AI正在终端侧掀起一场算力变革。

在量子位MEET2026智能未来大会上,高通公司AI产品技术中国区负责人万卫星指出:

尽管当前行业焦点仍在生成式AI,但产业整体正呈现出从生成式AI向智能体AI演进的趋势。

他将AI发展划分为四个阶段:传统感知AI、当前主流的生成式AI、正在兴起的智能体AI,以及尚处探索初期、能理解物理规律的物理AI。目前,产业正处于从“生成”迈向“智能体”的关键过渡期,终端AI也正由单一文字模态向全模态交互加速演进。

万卫星强调,端侧运行大模型的核心优势在于“个性化”——在数据源头进行本地推理,既能保障用户隐私,又能实现无需联网的即时响应。

然而,在手机、PC等高集成度设备上部署百亿参数级大模型,仍面临内存受限、带宽瓶颈与功耗控制三大挑战。对此,高通已布局多项关键技术应对。

展望未来终端体验,万卫星提出“混合AI”与“分布式协同”的发展方向:不同设备间将实现跨端AI推理,智能眼镜、手机、汽车等终端可共享算力资源,共同构建高效、安全的智能生态。

为完整呈现其观点,量子位对演讲内容进行了整理编辑。

MEET2026智能未来大会由量子位主办,汇聚近30位产业代表,线下参会人数近1500人,线上直播观看量超350万,获主流媒体广泛关注。

核心观点梳理

  • AI应用演进可分为四个阶段:感知AI、生成式AI、智能体AI和物理AI。
  • 终端侧AI正从单一文字模态向多模态乃至全模态发展。
  • 生态系统由单体模型转向复合系统,是迈向智能体AI的基础。
  • 端侧运行大模型的最大优势之一是实现个性化服务。
  • 端侧部署大模型面临内存、带宽和功耗三大主要挑战。
  • 高通通过量化压缩、并行解码、先进NPU及异构计算架构提升端侧推理效率。

AI应用演进的四个阶段

AI应用的发展可划分为四个阶段。

第一阶段为感知AI,涵盖自然语言处理、语音降噪、图像识别与分割等传统技术,已在多种终端设备实现商业化落地。

第二阶段是生成式AI,以ChatGPT为代表,基于大规模数据预训练,在人类监督下完成特定任务,如文生图、聊天机器人、翻译、内容创作等。

第三阶段为智能体AI,能够在极少或无人干预的情况下,自主执行预测、意图理解与任务编排,具备更强的主动性与复杂服务能力。

当前产业虽仍聚焦生成式AI,但整体已显现出向智能体AI演进的趋势。

第四阶段是物理AI,目标是让AI理解真实世界运行规律,并依据物理法则做出响应。该阶段目前仍处于研究探索初期。

端侧AI的优势和挑战

随着终端设备支持的模型规模持续扩大:

  • 手机可部署接近100亿参数的大模型;
  • PC端可达约200亿参数;
  • 车载场景已支持200亿至600亿参数级模型部署。

同时,端侧模型能力不断提升:

  • 已支持具备思维链(CoT)和推理能力的模型本地运行;
  • 上下文长度显著增长,普遍支持8K–16K,特殊场景可达128K;
  • 模态支持从文字扩展至文本、图像、视频、音频、语音等多模态乃至全模态交互。

端侧运行AI的核心优势在于个性化:数据产生于终端,本地推理更利于隐私保护,且无需联网即可响应,用户体验更稳定可靠。

此外,端侧AI还具备免流量、低延迟、离线可用等优势。

主要挑战包括:

  • 内存限制:终端内存有限,制约大模型部署规模;
  • 带宽限制:影响token生成速度,进而影响推理效率;
  • 功耗控制:高功耗易触发温控机制,影响设备性能表现。

为应对上述挑战,高通采取以下技术路径:

  1. 量化与压缩:从8bit、4bit到实现2bit极致压缩,降低模型内存占用,提升端侧部署能力;
  2. 并行解码技术:通过小模型生成候选token,大模型验证,显著提升解码效率;
  3. 先进NPU与异构计算架构:依托eNPU与多核协同设计,实现高效能推理,推动AI服务向主动化、个性化升级。

并行解码技术详解

当前主流大语言模型采用自回归架构,需加载全部输入与权重才能生成单个token,效率较低,尤其在模型规模增大时导致延迟上升。

高通引入并行解码技术:先在端侧运行轻量级“草稿模型”,一次性推理多个token,再交由原始大模型校验。

由于草稿模型基于大模型训练,校验接受率较高,从而实现高效并行生成,大幅提升端侧推理速度。

从生成式AI向智能体AI演进

当前正处于从生成式AI向智能体AI过渡的关键阶段。

生成式AI主要服务于“单体”任务,如实时翻译、文生图、摘要生成、内容续写等。

而智能体AI则是更复杂、主动的复合型服务,其实现依赖三大基础模块:

  1. 具备推理能力的大模型,用于理解用户意图;
  2. 访问本地个人知识图谱等数据,生成个性化任务规划;
  3. 调用本地或云端API执行具体操作。

智能体AI典型用例

以微博发布为例:用户通过自然语言指令发起请求,智能体理解“发布微博”意图后,自动打开APP、搜索照片、根据个人偏好添加滤镜,并完成发布全流程。

后续还可监测评论动态,用户可通过语音指令对喜爱评论进行点赞或回复。

该用例在今年9月骁龙峰会上已实现全程端侧运行。

混合AI与分布式协同

除手机外,高通芯片广泛覆盖智能眼镜、PC、汽车、智能手表、IoT等设备,并支持跨设备智能互联。

未来,算力较弱的设备(如智能眼镜)可通过Wi-Fi或蓝牙连接手机、PC或汽车,将大模型推理任务迁移至高性能终端,实现分布式的个性化大模型推理

最终,AI体验将走向混合AI模式:

  • 终端侧运行高效垂类模型,提供安全、低延迟的个性化服务;
  • 云端运行超大规模通用模型,提供更强能力支持。

高通将持续通过高速、低延迟、安全的连接技术,保障端云协同与跨设备AI协作的无缝体验。

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14462
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读88.4k
粉丝0
内容14.5k