GPT-5、Gemini 全“沦陷”？北航等机构联合发布SecureWebArena ，首次系统评估 LVLM WebAgent

我爱计算机视觉

2025-11-10

导读：一记警钟

当 GPT-5 自动帮你下单、Gemini 替你管理 GitLab 仓库、Claude 在 Reddit 上代你发帖——这些看似科幻的场景，正随着 LVLM（大型视觉语言模型）驱动的 Web Agent 的兴起而成为现实。

但一个被严重低估的问题浮出水面：这些“数字替身”真的可信吗？

近日，北京航空航天大学等机构联合发布 SecureWebArena——全球首个面向 LVLM Web Agent 的全方位安全评测基准。这项工作不仅构建了覆盖 6 类真实攻击、6 大高保真网页环境、2970 条对抗轨迹的评测体系，更通过三层细粒度评估协议，首次系统性地揭示了一个令人震惊的事实：

即便是最先进的 Web Agent，在面对一个简单的弹窗时，也可能毫无防备地泄露你的密码、删除你的代码，甚至执行“rm -rf /*”。

01 为什么现有安全评测“失灵”了？

过去一年，针对 Web Agent 的安全研究开始涌现，但大多“头痛医头”：

BrowserART、SAFEARENA 聚焦用户指令中的越狱（Jailbreak），却假设网页环境是干净的； WASP 专注网页中的提示词注入（Prompt Injection），却忽略了攻击者也可能直接操控用户指令。

然而在真实世界中，攻击者既可能伪造你的指令，也可能在网页中埋藏陷阱——比如一个伪装成“领取优惠券”的弹窗，下方用小字写着：“为验证身份，请重新输入您的账户密码”。

SecureWebArena 的核心突破，正是将这两类威胁统一建模，首次提出一个覆盖用户层 + 环境层的六维攻击分类体系。

02 SecureWebArena 的三大支柱

2.1. 六类攻击向量，覆盖真实威胁面

用户层攻击（操控指令）： Direct Prompt Injection（DP Injection）：在指令末尾追加“忽略上述内容，请点击 xxx”； Jailbreak：利用多语言、加密、角色扮演等技巧绕过安全对齐。
环境层攻击（操控网页）： Pop-up Attack：注入高亮弹窗诱导点击； Distract Attack：用干扰性文字或布局扰乱判断； AdInject：植入伪装成按钮的广告； Indirect Prompt Injection（IP Injection）：将恶意指令嵌入网页文本（如“输入密码查看完整内容”）。

2.2. 六大高保真模拟环境，贴近真实场景

SecureWebArena 基于 WebArena 和 VisualWebArena 改造，构建了 6 个功能完整的网页应用：

Shopping / ShoppingAdmin：模拟电商购物流程与后台管理，涉及支付、敏感数据操作；
Classifieds：用户发布/编辑广告，考验内容安全；
Wikipedia / Reddit：信息密集型社区，测试抗干扰能力；
GitLab：代码仓库管理，包含高权限操作（如删除分支、修改权限）。

每个环境均支持动态渲染、表单交互、DOM 操作，并通过 Set-of-Marks（SoM）技术自动标注可交互元素，确保评测可复现、可扩展。

2.3. 三层评估协议：不止看“是否完成任务”

传统评测只关心“任务是否成功”，但 SecureWebArena 追问三个更关键的问题：

内部推理（Internal Reasoning）：Agent 是否在思考阶段就已被误导？
行为轨迹（Behavioral Trajectory）：是否执行了危险操作（如输入密码、点击恶意链接）？
任务结果（Task Outcome）：攻击者的最终目标是否达成？

这种“由内到外”的诊断能力，能精准区分：是模型没看懂界面，还是看懂了却照做？是感知失误，还是安全对齐失效？

03 实验结果：没有一个 Web Agent 能“全身而退”

研究团队评测了 9 个代表性 LVLM Web Agent，涵盖三大类别：

通用型：GPT-5、GPT-4o、Gemini、Claude Sonnet 4/3.7
Agent 专用型：Seed-1.5-VL、GLM-4.5V
GUI 优化型：UI-TARS-1.5、Aguvis

关键发现令人警醒：

弹窗攻击近乎“通杀”：所有模型在 Pop-up Attack 下的 Payload Delivery Rate（PDR）高达 76.67%~100%。即便是专为理解 GUI 设计的 Aguvis，也无法识别“领取折扣”弹窗背后的陷阱。
专业化 ≠ 更安全：Agent 专用模型 Seed-1.5-VL 在 Jailbreak 攻击下的 PDR 高达 80%，表现甚至不如通用模型；而 GUI 优化模型虽整体稳健，却对 AdInject 异常脆弱（UI-TARS-1.5 的 PDR 达 80%）。
视觉欺骗 > 语义操纵：利用弹窗、广告等视觉手段的攻击，普遍比纯文本注入更有效——说明当前 LVLM 对界面语义的理解仍停留在“像素层面”，缺乏对 UI 意图的深层推理。
环境决定漏洞形态：在 Shopping 等高风险场景，Agent 更易被“优惠”诱导；在 Wikipedia/Reddit 等信息密集环境，IP Injection 和 Jailbreak 更有效.