

大模型安全护栏深度研究：运行原理、产品分类、部署方式及未来挑战

沙丘社区

2025-10-27

导读：沙丘智库《2025年大模型安全护栏技术研究报告》

作者｜沙丘智库研究团队

来源｜沙丘社区（www.shaqiu.cn）

大模型具有创造性和通用性。其中，创造性是大模型的标志性特征，尤其擅长回答开放式问题、生成创意内容或发现潜在知识；通用性则是指大模型不受限于特定的任务或功能，而是能够处理多种任务并适应新的场景。

但大模型应用的创造性和通用性越强，出现不期望的行为和输出的风险也越大，包括幻觉、有害内容和超出范围的回答等。

管理大模型应用安全风险的一个有效方式是利用大模型安全护栏。

2025年9月发布的《政务大模型应用安全规范》明确要求“应采用大模型安全护栏等技术措施，识别拦截政务大模型应用输入输出中的重要数据泄露、提示词注入攻击、违法和不良信息等”。

针对这一快速发展的新兴技术市场，沙丘智库发布《2025年大模型安全护栏技术研究报告》，帮助企业快速了解大模型安全护栏的作用、运行原理、产品分类、部署方式等，并针对对话式AI应用的安全护栏进行深入研究，为企业提供一份全面的大模型安全护栏建设指南。

完整报告：沙丘智库《2025年大模型安全护栏技术研究报告》（28页PDF）

大模型安全护栏定义

大模型安全护栏是一种保护机制，通过在最终用户和大模型之间形成保护层，监督和管理用户输入和模型输出，从而确保大模型的行为符合预期，减少不期望的输出，保护用户和模型的安全。

大模型安全护栏的第一步是检测输入或输出是否符合预设的要求。例如，大模型输入的安全护栏可以检测prompt中是否包含个人身份信息（PII）或有毒内容，大模型输出的安全护栏可以检测输出是否符合预设的结构要求（如JSON或Markdown格式）。

大模型安全护栏的第二步是根据检测结果采取相应的行动。如果输入或输出不符合要求，则将其标记为无效，并阻止其通过；如果输入或输出符合要求，则将其标记为有效，并允许其通过，prompt可以保持原样，也可以经过一定的修改。

大模型安全护栏需要定期评估其有效性和效率；如果预设的要求或行动发生变化，也需要触发评估，确保安全护栏仍然适用。

大模型安全护栏分类

按照防护范围来看，每种大模型安全护栏有两个重要维度，一个是防护风险类型，另一个是对输入&输出的防护程度。例如，道德和伦理护栏主要应用于验证输入是否包含有毒和偏见的信息，同时也可以应用于输出。常见的大模型安全护栏分类如下：

按照商业模式划分，大模型安全护栏可以分为开源方案和商业方案。随着大模型开源生态的繁荣发展，国外大模型安全护栏领域涌现出众多开源方案，为大模型安全应用提供了强大支撑。最早开源大模型安全护栏的是Meta LlamaGuard，目前除了支持文本模态外，还扩展了图像模态。国内开源生态刚刚起步，当前主要仅支持文本模态。