“任意门”效应:LLM应用能力边界风险研究
在大模型逐步普及的今天,传统从零开发代码的应用范式正被以提示词和插件为核心的大型语言模型应用(LLM Apps)取代。但当前LLM应用是否已具备足够安全边界?本文系统性揭示了LLM应用因能力边界模糊引发的实际风险,首次量化评估其开发质量,并全面分析能力降级、能力升级与能力越狱三类边界风险。该成果已被国际网络安全顶级会议NDSS 2026录用。
原文标题: Beyond Jailbreak: Unveiling Risks in LLM Applications Arising from Blurred Capability Boundaries
作者: Yunyi Zhang, Shibo Cui, Baojun Liu, Jingkai Yu, Min Zhang, Fan Shi, Han Zheng
录用会议: Network and Distributed System Security (NDSS) Symposium 2026
论文链接: https://yunyizhang.net/assets/pdfs/llmapp-ndss-26.pdf
“任意门”效应
当一个LLM应用的能力边界过于宽泛且缺乏有效限制,用户行为将难以约束。例如,2025年初,小红书为应对多语言用户激增,快速上线基于LLM的翻译功能;该功能虽提升体验,却迅速被用户滥用——脱离翻译本职,执行各类非预期任务。
图1 小红书翻译功能被滥用
LLM应用能力空间及风险分类
在新开发范式下,开发者不再为特定任务编码,而是从基础大模型中圈定所需能力、限制无关能力,构建专用LLM应用。本文将能力边界风险归纳为三类:
- 能力降级:削弱应用在目标任务上的性能,导致错误响应;
- 能力升级:扩展应用预期能力范围,使其可执行其他类型任务,但未突破伦理或安全约束;
- 能力越狱:同时绕过应用功能限制与底层LLM安全机制,实现任意任务(含恶意任务)执行。
图2 能力空间示意图
图3 能力边界风险示意图
基础大模型如同“任意门”,理想情况下应被限定于单一功能房间(如翻译工具)。而提示词设计若缺乏安全考量,用户仅需简单操作即可穿越房间,抵达模型支持的任意功能领域。
LLM应用能力风险评估框架
为量化现实风险,本文提出LLMApp-Eval评估框架:
图4 LLMApp-Eval框架图
- 应用收集与分类:采集GPTs Store、Coze、AgentBuilder、Poe四大平台共807,207个应用元数据,并结合NLI-based Zero Shot Classification模型进行类型划分;
- Prompt质量量化:依据Anthropic与Google Agent设计指南,从目标(TScore)、步骤(PScore)、能力(CaScore)、限制(CoScore)四维度评估提示词质量,加权生成AppScore;
- 能力边界测试:
- 能力降级:通过间接提示注入测试模型任务性能下降程度;
- 能力升级:构建跨类别测试集,验证App1能否执行App2任务;
- 能力越狱:集成AI-Infra-Guard平台,复现Gptfuzzer、ArtPrompt等主流越狱技术,生成高质量对抗样本。
LLM应用部署与开发现状
跨平台现状:
(1)四大平台应用类型分布高度一致,各类别平均绝对偏差<2%;
(2)“超级开发者”主导生态,但带来大量低质、同质化应用;
(3)平台默认插件存在安全隐患,如AgentBuilder某离婚咨询应用误配百度地图插件。
图6 GPTs上的超级开发者
开发质量堪忧:
(1)48.62%的应用AppScore低于50;43.41%未设置任何功能约束,已设约束中20%得分<60;
(2)优化提示词后,应用对域外任务拒绝率显著提升,执行域外任务数降低5.3%–80%(如AgentBuilder案例:15→3类)。
风险实证结果:
(1)能力降级:2790组边界测试显示,Mistral错误响应达993例,LLaMA最优但仍出现668例错误;
(2)能力升级:199个热门应用中,144个(72.36%)可执行≥15类任务;GPTs平台风险最高,主因Web搜索与DALL·E默认配置增强多模态与实时检索能力;
(3)能力越狱:178个(89.45%)应用易受越狱攻击,其中17个未经对抗技术即直接执行恶意任务。
表1 LLM的能力降级实验
图7 应用执行的任务类型数量分布图
图8 四个平台LLM应用的能力升级实验结果(绿色:原始类型;橙色深浅表示任务完成比例)
图9 不同平台流行度前50应用的能力越狱实验结果
总结
本文揭示:LLM应用的安全隐患核心源于能力边界的模糊性,“任意门”效应为其引入全新攻击向量。对全球四大平台超80万应用的跨平台分析证实,大量热门应用暴露于能力提权或能力降级威胁之下。提示词设计质量低下与平台默认插件配置失当,是应用沦为无限制“任意门”的主因;强化提示词约束(尤其CoScore维度)与构建固定工作流,是实现安全隔离、抑制滥用的关键路径。

