支付宝技术部的朱嘉丽(嘉俐)在QECon 2025全球软件质量&效能大会·深圳站发表了主题为《基于多模态大模型的 UI自动化测试》的演讲。
以下是
朱嘉丽(嘉俐)分享的核心内容整理
前言
小程序质检在真实场景中复杂性高,人工评测/审核往往主观性强。当问题出现的链路更深,人工评测难度进一步扩大,无法全面覆盖小程序的完整业务链路,识别系统异常和业务异常,对人力、资源都是巨大的消耗。
因此,我们开发了一套智能化方案。聚焦于利用深度学习和多模态大模型技术,对小程序进行页面、动线维度的自动化检测,同时生成AI自动化测试用例,维护成本低,大大减少人效投入,保障线上小程序的功能稳定性与用户体验。
一
质量测试场景&问题背景
蚂蚁内部有一些专门面向UI自动化测试的平台,例如TestFun。TestFun广泛服务于蚂蚁集团多个BU的开发和测试人员,平台已沉淀近百万的测试用例,其中自动化用例占比达到50%。平台有以下特性:
泛终端支持
无缝衔接模拟器、虛拟机和真机,确保终端的一致性和稳定性,满足不同测试需求。
多维测试
覆盖兼容性、性能等多个维度的测试需求,全面保障产品质量。
开箱即用
提供账号池管理和多环境切换支持,简化测试准备工作,提高测试效率。
闭环管理
通过自动化回归测试和全流程质量管理,实现测试计划、执行与分析的闭环管理,持续提升测试质量和效率。
TestFun测试平台
然而,在实际的测试场景中,仍然存在诸多问题:
用例生产保鲜难度大:迭代快&多平台不互通
业务场景复杂度高:复杂交互&跨平台多技术栈
容量效率不足:真机成本高、任务量大
测试稳定性低:设备&网络异常
因此,我们亟需一个LowCode方案,来提升脚本可读性,增强脚本的泛化能力。
二
AI自动化测试方案
当前测试同学普遍采用以下方法进行自动化测试,每种测试方法及其对应特点描述如下:
脚本:依赖脚本是最常见的;利用规则和约束进入关键路径;维护成本很高;对于快速发展的业务应接不暇。
遍历:消耗能力在非关键业务路径;难以发现“操作无响应”类异常
智能方法:核心链路测试;UI页面理解;动线行为推理;结合热点的多模态大模型智能测试
因此,我们期望能构建一套智能化测试方案,它能拥有以下特点:
全模态接入能力:同时处理图片、文本、视频等多种模态信息
稳定性 & 强大的泛化性能:适应线上频繁迭代发布的测试场景、适应不同的终端设备
脚本可读性:自然语言形式描述测试场景、功能等
因此,我们期望能构建一套智能化测试方案,它能拥有以下特点:
全模态接入能力:同时处理图片、文本、视频等多种模态信息
稳定性 & 强大的泛化性能:适应线上频繁迭代发布的测试场景、适应不同的终端设备
脚本可读性:自然语言形式描述测试场景、功能等
方案选型
考虑到GUI图像的三大特点:1. 富文本;2. 可交互区域存在限制;3. 区域间有层次/逻辑关系。这决定了纯文本的大语言模型无法接受和处理这些复杂的情形。如图1,类目和右侧的商品列表存在对应关系,商品信息也以类似卡片的形式呈现(包含商品图片、价格、介绍等);图2中的日期选择,3号为可选择状态,1号为不可选择状态。
图1. 想选人气套餐下的牛排 ❌ 类目选择
图2. 我想买高铁票 ❌ 日期选择
任务定义
回归到问题的本质,基于多模态大模型的UI自动化测试是通过大模型和人类意图良好对齐的特性,实现多样UI场景的兼容。实际业务中,应用的场景可以被概括为两大类:
1、页面感知:可以基于意图理解,识别和提取页面元素。
业务应用场景:识别物流运单号、提取某个的商品价格、获取详情页内会员优惠价、读取购物车总价等
2、动线推理:基于单页面甚至多页面(动线)进行决策。
业务应用场景:判断会员权益是否被核销(多页面验证)、自主操纵小程序、自主与其他智能体多轮交互等
算法方案
从实际技术发展路径、业务需求出发,整体算法方案的建设主要从这三方面展开:数据驱动、Agent流程搭建,RAG增强检索。
1. 数据驱动
大模型的训练由大量、准确的数据驱动。我们依托平台积累的丰富UI数据资源,构建了一套多模态大模型的数据处理与自动化训练迭代方案。以用户数据作为输入,经数据判别、大模型完善、人工判定、数据入库/预处理、模型训练、业务测评等环节,最终生成新的模型权重。经业务评测后,推到线上环境中,大大节约了人力的投入。
数据处理流程
2. Agent构建
动线推理是一个较为复杂的场景,尤其是用户输入复杂意图时,往往需要长达十几甚至几十步的动作来完成整个任务。长动线的推理自然而来地就带来一个问题:每个单步的成功率累乘导致整体成功率的下降。因此,我们利用multi-agent技术和一系列小模型分析来拆分复杂任务、辅助决策,使得单步成功率提升,从而增强整体任务的成功率。
multi-agent技术包含Planning Agent、Action Agent、Reflection Agent和其他视觉、文本工具。
· Planning Agent:负责任务规划,将复杂意图拆分为多个简单/单步意图
· Action Agent:负责动作推理,将简单/单步意图映射到动作空间,输出动作类型和对应参数
· Reflection Agent:进行任务反思和总结,对不正确的动作进行识别和纠偏
· 其他视觉、文本工具:丰富信息输入、辅助决策、识别任务状态,举例如下:
工具介绍1
工具介绍2
Route RAG(路径检索)
根据已知路径自动构建知识库,Agent决策前检索知识库获取相关路径指导和域内知识提示。
Route RAG 存储模式
Action Execution Checkpoints
(检查点设置)
任务执行结束的检查点,利用一种或多种算法方案,自动判别用户意图是否被有效且正确执行。
任务结束检查点方案
三
业务场景落地&创新实效
业务场景落地
整套算法能力,当前已被应用到蚂蚁(支付宝)内部的多个终端/模拟器平台和业务场景中,主要应用场景如下:
大模型驱动的UI测试用例生成
· AI自动化用例生成12k+条,自动化测试覆盖率从50%提升到70%,大量手工测试任务实现自动化。
UI小程序自动化质检
·用于开发支付宝开放平台小程序上架审核质检助手
·用于日常小程序质检,降低用户舆情、节约人力投入
创新实效
项目也完成了较多的技术积累,发表了一系列论文及发明专利。
· 基于UI多模态大模型的MobileFlow获评中国人工智能产业发展联盟-2024年人工智能先锋案例。
· 基于UI多模态大模型的MobileFlow获评中国信通院2024年AI4SE“银弹”优秀案例奖。
·《MobileFlow: A Multimodal LLM For Mobile GUI Agent》(NeurIPS workshop2024)
https://arxiv.org/pdf/2407.04346
· 累计5项专利。
四
未来展望
基于项目当前的技术方案和大模型发展的技术路径,我们对其提出了更高的期许,期待它能在技术能力、用户体验性等维度做的更好。
智能Agent
从任务定义的workflow,转化为自动实时分析、主动调用各类工具的Agent模式。
复杂任务
完成需要深度思考的复杂任务。比如,用户希望购买滑雪板,Agent能搜索不同型号、比较价格、收集用户评论、生成综合报告后做最佳选择下单,而不仅仅是简单地完成用户指令操作。
用户偏好
根据用户环境和偏好,主动提示和完成任务,符合用户的个性化需求。

