大数跨境
0
0

基于多模态大模型的 UI自动化测试

基于多模态大模型的 UI自动化测试 蚂蚁技术AntTech
2025-07-02
1


支付宝技术部的朱嘉丽(嘉俐)在QECon 2025全球软件质量&效能大会·深圳站发表了主题为《基于多模态大模型的 UI自动化测试》的演讲。



以下是

朱嘉丽(嘉俐)分享的核心内容整理




前言




小程序质检在真实场景中复杂性高,人工评测/审核往往主观性强。当问题出现的链路更深,人工评测难度进一步扩大,无法全面覆盖小程序的完整业务链路,识别系统异常和业务异常,对人力、资源都是巨大的消耗。


因此,我们开发了一套智能化方案。聚焦于利用深度学习和多模态大模型技术,对小程序进行页面、动线维度的自动化检测,同时生成AI自动化测试用例,维护成本低,大大减少人效投入,保障线上小程序的功能稳定性与用户体验。


质量测试场景&问题背景


蚂蚁内部有一些专门面向UI自动化测试的平台,例如TestFun。TestFun广泛服务于蚂蚁集团多个BU的开发和测试人员,平台已沉淀近百万的测试用例,其中自动化用例占比达到50%。平台有以下特性:



泛终端支持

无缝衔接模拟器、虛拟机和真机,确保终端的一致性和稳定性,满足不同测试需求。



多维测试

覆盖兼容性、性能等多个维度的测试需求,全面保障产品质量。



开箱即用

提供账号池管理和多环境切换支持,简化测试准备工作,提高测试效率。



闭环管理

通过自动化回归测试和全流程质量管理,实现测试计划、执行与分析的闭环管理,持续提升测试质量和效率。


TestFun测试平台


然而,在实际的测试场景中,仍然存在诸多问题:


用例生产保鲜难度大:迭代快&多平台不互通

业务场景复杂度高:复杂交互&跨平台多技术栈

容量效率不足:真机成本高、任务量大

测试稳定性低:设备&网络异常


因此,我们亟需一个LowCode方案,来提升脚本可读性,增强脚本的泛化能力。


AI自动化测试方案


当前测试同学普遍采用以下方法进行自动化测试,每种测试方法及其对应特点描述如下:


脚本:依赖脚本是最常见的;利用规则和约束进入关键路径;维护成本很高;对于快速发展的业务应接不暇。

遍历:消耗能力在非关键业务路径;难以发现“操作无响应”类异常

智能方法:核心链路测试;UI页面理解;动线行为推理;结合热点的多模态大模型智能测试


因此,我们期望能构建一套智能化测试方案,它能拥有以下特点:


全模态接入能力:同时处理图片、文本、视频等多种模态信息

稳定性 & 强大的泛化性能:适应线上频繁迭代发布的测试场景、适应不同的终端设备

脚本可读性:自然语言形式描述测试场景、功能等


因此,我们期望能构建一套智能化测试方案,它能拥有以下特点:


全模态接入能力:同时处理图片、文本、视频等多种模态信息

稳定性 & 强大的泛化性能:适应线上频繁迭代发布的测试场景、适应不同的终端设备

脚本可读性:自然语言形式描述测试场景、功能等


1

方案选型


考虑到GUI图像的三大特点:1. 富文本;2. 可交互区域存在限制;3. 区域间有层次/逻辑关系。这决定了纯文本的大语言模型无法接受和处理这些复杂的情形。如图1,类目和右侧的商品列表存在对应关系,商品信息也以类似卡片的形式呈现(包含商品图片、价格、介绍等);图2中的日期选择,3号为可选择状态,1号为不可选择状态。


图1. 想选人气套餐下的牛排 ❌ 类目选择


图2. 我想买高铁票 ❌ 日期选择


2

任务定义


回归到问题的本质,基于多模态大模型的UI自动化测试是通过大模型和人类意图良好对齐的特性,实现多样UI场景的兼容。实际业务中,应用的场景可以被概括为两大类:


1、页面感知:可以基于意图理解,识别和提取页面元素。

业务应用场景:识别物流运单号、提取某个的商品价格、获取详情页内会员优惠价、读取购物车总价等


2、动线推理:基于单页面甚至多页面(动线)进行决策。

业务应用场景:判断会员权益是否被核销(多页面验证)、自主操纵小程序、自主与其他智能体多轮交互等


3

算法方案


从实际技术发展路径、业务需求出发,整体算法方案的建设主要从这三方面展开:数据驱动、Agent流程搭建,RAG增强检索。


1. 数据驱动


大模型的训练由大量、准确的数据驱动。我们依托平台积累的丰富UI数据资源,构建了一套多模态大模型的数据处理与自动化训练迭代方案。以用户数据作为输入,经数据判别、大模型完善、人工判定、数据入库/预处理、模型训练、业务测评等环节,最终生成新的模型权重。经业务评测后,推到线上环境中,大大节约了人力的投入。


数据处理流程


2. Agent构建


动线推理是一个较为复杂的场景,尤其是用户输入复杂意图时,往往需要长达十几甚至几十步的动作来完成整个任务。长动线的推理自然而来地就带来一个问题:每个单步的成功率累乘导致整体成功率的下降。因此,我们利用multi-agent技术和一系列小模型分析来拆分复杂任务、辅助决策,使得单步成功率提升,从而增强整体任务的成功率。


multi-agent技术包含Planning Agent、Action Agent、Reflection Agent和其他视觉、文本工具。


· Planning Agent:负责任务规划,将复杂意图拆分为多个简单/单步意图

· Action Agent:负责动作推理,将简单/单步意图映射到动作空间,输出动作类型和对应参数

· Reflection Agent:进行任务反思和总结,对不正确的动作进行识别和纠偏

· 其他视觉、文本工具:丰富信息输入、辅助决策、识别任务状态,举例如下:


工具介绍1


工具介绍2


3

Route RAG(路径检索)


根据已知路径自动构建知识库,Agent决策前检索知识库获取相关路径指导和域内知识提示。


Route RAG 存储模式


4

Action Execution Checkpoints

(检查点设置)


任务执行结束的检查点,利用一种或多种算法方案,自动判别用户意图是否被有效且正确执行。


任务结束检查点方案


业务场景落地&创新实效


1

业务场景落地


整套算法能力,当前已被应用到蚂蚁(支付宝)内部的多个终端/模拟器平台和业务场景中,主要应用场景如下:


大模型驱动的UI测试用例生成

· AI自动化用例生成12k+条,自动化测试覆盖率从50%提升到70%,大量手工测试任务实现自动化。


UI小程序自动化质检

·用于开发支付宝开放平台小程序上架审核质检助手

·用于日常小程序质检,降低用户舆情、节约人力投入



2

创新实效


项目也完成了较多的技术积累,发表了一系列论文及发明专利。


· 基于UI多模态大模型的MobileFlow获评中国人工智能产业发展联盟-2024年人工智能先锋案例。

· 基于UI多模态大模型的MobileFlow获评中国信通院2024年AI4SE“银弹”优秀案例奖。

·《MobileFlow: A Multimodal LLM For Mobile GUI Agent》(NeurIPS workshop2024)

https://arxiv.org/pdf/2407.04346

· 累计5项专利。


未来展望


基于项目当前的技术方案和大模型发展的技术路径,我们对其提出了更高的期许,期待它能在技术能力、用户体验性等维度做的更好。



智能Agent

从任务定义的workflow,转化为自动实时分析、主动调用各类工具的Agent模式。



复杂任务

完成需要深度思考的复杂任务。比如,用户希望购买滑雪板,Agent能搜索不同型号、比较价格、收集用户评论、生成综合报告后做最佳选择下单,而不仅仅是简单地完成用户指令操作。



用户偏好

根据用户环境和偏好,主动提示和完成任务,符合用户的个性化需求。

【声明】内容源于网络
0
0
蚂蚁技术AntTech
科技是蚂蚁创造未来的核心动力
内容 1081
粉丝 0
蚂蚁技术AntTech 科技是蚂蚁创造未来的核心动力
总阅读464
粉丝0
内容1.1k