作者|沙丘智库研究团队
来源|沙丘社区(www.shaqiu.cn)
大模型具有创造性和通用性。其中,创造性是大模型的标志性特征,尤其擅长回答开放式问题、生成创意内容或发现潜在知识;通用性则是指大模型不受限于特定的任务或功能,而是能够处理多种任务并适应新的场景。
但大模型应用的创造性和通用性越强,出现不期望的行为和输出的风险也越大,包括幻觉、有害内容和超出范围的回答等。
管理大模型应用安全风险的一个有效方式是利用大模型安全护栏。
2025年9月发布的《政务大模型应用安全规范》明确要求“应采用大模型安全护栏等技术措施,识别拦截政务大模型应用输入输出中的重要数据泄露、提示词注入攻击、违法和不良信息等”。
针对这一快速发展的新兴技术市场,沙丘智库发布《2025年大模型安全护栏技术研究报告》,帮助企业快速了解大模型安全护栏的作用、运行原理、产品分类、部署方式等,并针对对话式AI应用的安全护栏进行深入研究,为企业提供一份全面的大模型安全护栏建设指南。
完整报告:沙丘智库《2025年大模型安全护栏技术研究报告》(28页PDF)
01
大模型安全护栏定义
大模型安全护栏是一种保护机制,通过在最终用户和大模型之间形成保护层,监督和管理用户输入和模型输出,从而确保大模型的行为符合预期,减少不期望的输出,保护用户和模型的安全。
大模型安全护栏的第一步是检测输入或输出是否符合预设的要求。例如,大模型输入的安全护栏可以检测prompt中是否包含个人身份信息(PII)或有毒内容,大模型输出的安全护栏可以检测输出是否符合预设的结构要求(如JSON或Markdown格式)。
大模型安全护栏的第二步是根据检测结果采取相应的行动。如果输入或输出不符合要求,则将其标记为无效,并阻止其通过;如果输入或输出符合要求,则将其标记为有效,并允许其通过,prompt可以保持原样,也可以经过一定的修改。
大模型安全护栏需要定期评估其有效性和效率;如果预设的要求或行动发生变化,也需要触发评估,确保安全护栏仍然适用。
02
大模型安全护栏分类
按照防护范围来看,每种大模型安全护栏有两个重要维度,一个是防护风险类型,另一个是对输入&输出的防护程度。例如,道德和伦理护栏主要应用于验证输入是否包含有毒和偏见的信息,同时也可以应用于输出。常见的大模型安全护栏分类如下:
按照商业模式划分,大模型安全护栏可以分为开源方案和商业方案。随着大模型开源生态的繁荣发展,国外大模型安全护栏领域涌现出众多开源方案,为大模型安全应用提供了强大支撑。最早开源大模型安全护栏的是Meta LlamaGuard,目前除了支持文本模态外,还扩展了图像模态。国内开源生态刚刚起步,当前主要仅支持文本模态。
完整报告:沙丘智库《2025年大模型安全护栏技术研究报告》(28页PDF)
报告目录
1.大模型应用安全风险
2.大模型安全护栏定义
2.1 大模型安全护栏的作用
2.2 大模型安全护栏运行原理
2.3 大模型输入的安全护栏
2.4 大模型输出的安全护栏
3.大模型安全护栏建设标准
4.大模型安全护栏分类
4.1大模型安全护栏分类——按防护范围划分
4.2 大模型安全护栏分类——按商业模式划分
5.大模型安全护栏建设指南
5.1 大模型安全护栏部署方式
5.2 实施大模型安全护栏的考虑因素
5.3 对话式AI应用的安全护栏
6.大模型安全护栏的挑战和未来
*更多生成式AI研究可前往“沙丘智库”小程序查阅
*有任何需求可咨询客服微信:zimu738

