

基于多模态大模型的 UI自动化测试

蚂蚁技术AntTech

2025-07-02

支付宝技术部的朱嘉丽（嘉俐）在QECon 2025全球软件质量&效能大会·深圳站发表了主题为《基于多模态大模型的 UI自动化测试》的演讲。

以下是

朱嘉丽（嘉俐）分享的核心内容整理

前言

小程序质检在真实场景中复杂性高，人工评测/审核往往主观性强。当问题出现的链路更深，人工评测难度进一步扩大，无法全面覆盖小程序的完整业务链路，识别系统异常和业务异常，对人力、资源都是巨大的消耗。

因此，我们开发了一套智能化方案。聚焦于利用深度学习和多模态大模型技术，对小程序进行页面、动线维度的自动化检测，同时生成AI自动化测试用例，维护成本低，大大减少人效投入，保障线上小程序的功能稳定性与用户体验。

一

质量测试场景&问题背景

蚂蚁内部有一些专门面向UI自动化测试的平台，例如TestFun。TestFun广泛服务于蚂蚁集团多个BU的开发和测试人员，平台已沉淀近百万的测试用例，其中自动化用例占比达到50%。平台有以下特性：

泛终端支持

无缝衔接模拟器、虛拟机和真机，确保终端的一致性和稳定性，满足不同测试需求。

多维测试

覆盖兼容性、性能等多个维度的测试需求，全面保障产品质量。

开箱即用

提供账号池管理和多环境切换支持，简化测试准备工作，提高测试效率。

闭环管理

通过自动化回归测试和全流程质量管理，实现测试计划、执行与分析的闭环管理，持续提升测试质量和效率。

TestFun测试平台

然而，在实际的测试场景中，仍然存在诸多问题：

用例生产保鲜难度大：迭代快&多平台不互通

业务场景复杂度高：复杂交互&跨平台多技术栈

容量效率不足：真机成本高、任务量大

测试稳定性低：设备&网络异常

因此，我们亟需一个LowCode方案，来提升脚本可读性，增强脚本的泛化能力。

二

AI自动化测试方案

当前测试同学普遍采用以下方法进行自动化测试，每种测试方法及其对应特点描述如下：

脚本：依赖脚本是最常见的；利用规则和约束进入关键路径；维护成本很高；对于快速发展的业务应接不暇。

遍历：消耗能力在非关键业务路径；难以发现“操作无响应”类异常

智能方法：核心链路测试；UI页面理解；动线行为推理；结合热点的多模态大模型智能测试

因此，我们期望能构建一套智能化测试方案，它能拥有以下特点：

全模态接入能力：同时处理图片、文本、视频等多种模态信息

稳定性 & 强大的泛化性能：适应线上频繁迭代发布的测试场景、适应不同的终端设备

脚本可读性：自然语言形式描述测试场景、功能等

因此，我们期望能构建一套智能化测试方案，它能拥有以下特点：

全模态接入能力：同时处理图片、文本、视频等多种模态信息

稳定性 & 强大的泛化性能：适应线上频繁迭代发布的测试场景、适应不同的终端设备

脚本可读性：自然语言形式描述测试场景、功能等

方案选型

考虑到GUI图像的三大特点：1. 富文本；2. 可交互区域存在限制；3. 区域间有层次/逻辑关系。这决定了纯文本的大语言模型无法接受和处理这些复杂的情形。如图1，类目和右侧的商品列表存在对应关系，商品信息也以类似卡片的形式呈现（包含商品图片、价格、介绍等）；图2中的日期选择，3号为可选择状态，1号为不可选择状态。

图1. 想选人气套餐下的牛排 ❌ 类目选择

图2. 我想买高铁票 ❌ 日期选择

任务定义

回归到问题的本质，基于多模态大模型的UI自动化测试是通过大模型和人类意图良好对齐的特性，实现多样UI场景的兼容。实际业务中，应用的场景可以被概括为两大类：

1、页面感知：可以基于意图理解，识别和提取页面元素。

业务应用场景：识别物流运单号、提取某个的商品价格、获取详情页内会员优惠价、读取购物车总价等

2、动线推理：基于单页面甚至多页面（动线）进行决策。

业务应用场景：判断会员权益是否被核销（多页面验证）、自主操纵小程序、自主与其他智能体多轮交互等

算法方案

从实际技术发展路径、业务需求出发，整体算法方案的建设主要从这三方面展开：数据驱动、Agent流程搭建，RAG增强检索。

1. 数据驱动

大模型的训练由大量、准确的数据驱动。我们依托平台积累的丰富UI数据资源，构建了一套多模态大模型的数据处理与自动化训练迭代方案。以用户数据作为输入，经数据判别、大模型完善、人工判定、数据入库/预处理、模型训练、业务测评等环节，最终生成新的模型权重。经业务评测后，推到线上环境中，大大节约了人力的投入。

数据处理流程

2. Agent构建

动线推理是一个较为复杂的场景，尤其是用户输入复杂意图时，往往需要长达十几甚至几十步的动作来完成整个任务。长动线的推理自然而来地就带来一个问题：每个单步的成功率累乘导致整体成功率的下降。因此，我们利用multi-agent技术和一系列小模型分析来拆分复杂任务、辅助决策，使得单步成功率提升，从而增强整体任务的成功率。

multi-agent技术包含Planning Agent、Action Agent、Reflection Agent和其他视觉、文本工具。

· Planning Agent：负责任务规划，将复杂意图拆分为多个简单/单步意图

· Action Agent：负责动作推理，将简单/单步意图映射到动作空间，输出动作类型和对应参数

· Reflection Agent：进行任务反思和总结，对不正确的动作进行识别和纠偏

· 其他视觉、文本工具：丰富信息输入、辅助决策、识别任务状态，举例如下：

工具介绍1

工具介绍2

Route RAG（路径检索）

根据已知路径自动构建知识库，Agent决策前检索知识库获取相关路径指导和域内知识提示。

Route RAG 存储模式

Action Execution Checkpoints

（检查点设置）

任务执行结束的检查点，利用一种或多种算法方案，自动判别用户意图是否被有效且正确执行。

任务结束检查点方案

三

业务场景落地&创新实效

业务场景落地

整套算法能力，当前已被应用到蚂蚁（支付宝）内部的多个终端/模拟器平台和业务场景中，主要应用场景如下：

大模型驱动的UI测试用例生成

· AI自动化用例生成12k+条，自动化测试覆盖率从50%提升到70%，大量手工测试任务实现自动化。

UI小程序自动化质检

·用于开发支付宝开放平台小程序上架审核质检助手

·用于日常小程序质检，降低用户舆情、节约人力投入

创新实效

项目也完成了较多的技术积累，发表了一系列论文及发明专利。

· 基于UI多模态大模型的MobileFlow获评中国人工智能产业发展联盟-2024年人工智能先锋案例。

· 基于UI多模态大模型的MobileFlow获评中国信通院2024年AI4SE“银弹”优秀案例奖。

·《MobileFlow: A Multimodal LLM For Mobile GUI Agent》（NeurIPS workshop2024)

https://arxiv.org/pdf/2407.04346

· 累计5项专利。

四

未来展望

基于项目当前的技术方案和大模型发展的技术路径，我们对其提出了更高的期许，期待它能在技术能力、用户体验性等维度做的更好。

智能Agent

从任务定义的workflow，转化为自动实时分析、主动调用各类工具的Agent模式。

复杂任务

完成需要深度思考的复杂任务。比如，用户希望购买滑雪板，Agent能搜索不同型号、比较价格、收集用户评论、生成综合报告后做最佳选择下单，而不仅仅是简单地完成用户指令操作。

用户偏好

根据用户环境和偏好，主动提示和完成任务，符合用户的个性化需求。

【声明】内容源于网络

蚂蚁技术AntTech

科技是蚂蚁创造未来的核心动力

内容 1081

粉丝 0

蚂蚁技术AntTech 科技是蚂蚁创造未来的核心动力

总阅读464

粉丝0

内容1.1k