近期,科技圈两大“AI手机”动向引发关注。苹果与谷歌宣布合作,将Gemini能力接入Siri,但AI仅作为“调度员”,理解用户意图后调用相应应用;而国内字节跳动推出的豆包AI手机,则主打“万能助理”,可直接操作打车、购物、订票等应用。两者路径截然不同,背后折射出AI与应用交互的两种技术路线之争。
两种技术路线:A2A与GUI
当前AI手机的核心分歧在于实现方式:一种是通过标准接口让AI与应用“对话”的A2A(Agent-to-Agent)模式;另一种是让AI“读屏”并模拟点击操作的GUI(图形用户界面)模式。
A2A:合作共建,安全可控
A2A要求应用提供标准化API接口,AI通过接口调用功能,过程中需同时获得用户和应用方的“双重授权”。该模式权责清晰,数据流动可追溯,安全性高。例如用户可允许AI读取外卖App比价,但禁止访问银行应用,高风险操作还需额外确认。
然而,A2A推进缓慢,依赖操作系统厂商、应用开发者共同建立协议。缺乏足够应用支持则难以体现价值,形成“先有鸡还是先有蛋”的困局。
GUI:快速落地,风险并存
GUI路线依赖系统权限“读屏”并模拟人工操作,最初借助安卓“无障碍服务”实现,后续部分厂商获得系统签名权限,实现更流畅的操作体验。其优势在于无需应用适配,可快速覆盖现有生态,适合抢占市场先机。
但该模式存在明显短板:应用界面更新可能导致操作失败,长链任务成功率低;更重要的是隐私隐患——AI需实时获取屏幕信息,尽管厂商承诺本地处理,仍难消除用户疑虑。
全球巨头的选择:A2A成主流
海外科技巨头普遍倾向A2A路线。苹果通过“App Intents”框架强制应用按标准接入;谷歌推动“AppFunctions API”统一交互规范;微软自研“AutoGen”多智能体协作框架;OpenAI与Anthropic虽不涉足终端,但其“函数调用”功能实为A2A前身。
这些企业均为现有生态主导者,选择A2A旨在强化平台控制力。相比之下,GUI被视为“外挂式”方案,挑战平台权威,因此未被大规模采用。
即便尝试GUI,海外厂商也严格限制使用场景。如谷歌Gemini、微软Copilot仅支持“屏幕共享”以供AI查看并提供建议,不执行操作;OpenAI将GUI能力限定在Atlas浏览器内,禁止访问本地文件或运行代码;Anthropic的Computer Use API仅供开发者在虚拟环境测试。
国内格局多元:挑战者与守成者的博弈
国内市场参与者角色复杂,技术路线更为多样。
字节跳动选择高权限GUI路线,通过豆包大模型与中兴努比亚合作推出AI手机,试图绕开生态壁垒,争夺下一代流量入口。
阿里、华为、OPPO则布局A2A。阿里依托通义千问,深度集成淘宝、支付宝、高德等自有业务,构建可控API体系;华为在HarmonyOS 6中通过“意图框架”实现小艺与十余款鸿蒙原生应用的A2A协同;OPPO联合支付宝等头部应用探索行业标准。
这些厂商并非单纯追随A2A,而是借此构建以自身为核心的“混合生态”。华为与OPPO希望摆脱硬件“管道化”命运,从设备提供商升级为生态规则制定者;阿里则兼顾防守交易生态与打造新入口的双重目标。
为何主流厂商青睐A2A?
从技术、合规与商业成本三方面看,A2A更具长期优势。
技术演进:分工更高效
GUI要求大模型承担“眼、脑、手”全部职能,负担重且易出错;A2A让AI专注任务理解与调度,具体执行交由专业应用完成,实现“各司其职”,更适合复杂协作。
监管合规:风险更低
GUI的“读屏”行为面临全球监管压力。2025年美国德州曾起诉三星等厂商非法收集用户数据,警示意义重大。A2A通过明确接口传输数据,并辅以双重授权机制,更易满足隐私合规要求。
商业成本:可持续性强
GUI需持续消耗大量算力进行图像识别与操作分析,长期运营成本高昂;A2A仅需发送结构化指令,资源消耗远低于GUI。对于亿级用户规模的商用场景,A2A更具经济可行性。
更重要的是,A2A生态一旦成型,将催生全新商业机会:协议层与中间件可能成为AI时代的“操作系统”;垂直领域的“智能体工厂”将迎来爆发;云厂商、手机厂商也将分别扮演“训练场”与“承载终端”角色,迎来新增长。
结语:AI应是“副驾驶”,而非替代者
AI手机正从概念验证迈向生态构建阶段。GUI以“快”完成市场启蒙,展现AI助手的潜力,但受限于安全与成本,更可能作为过渡方案;A2A虽推进缓慢,却致力于建立清晰的规则体系,确保AI在可控范围内发挥作用。
这场路线之争,本质是对人机关系的思考。未来的AI手机,未必是要无所不能地替人决策,而是成为更聪明的“副驾驶”,在关键时刻提供精准信息与建议,最终将选择权交还给用户。技术终须服务于人,这才是AI发展的根本方向。
应受访者要求,文中陈刚、林亮为化名。

