

首家！百度大模型安全护栏荣获信通院大模型安全护栏能力评估优秀级

百度AI

2025-12-15

百度大模型安全护栏获中国信通院“优秀级”认证

12月12日，百度大模型安全护栏在中国信通院泰尔实验室的大模型安全护栏能力评估中，凭借多模态审核、安全代答及攻击拦截等核心能力，获评最高级别的“优秀级”评级。此前，其红线代答模型已于2025年6月通过中国信通院“大规模预训练模型（文本生成功能）安全认证增强级”认证。至此，百度大模型安全护栏成为业内首个拥有“双安全证书”最高级别认证的AI安全护栏产品。

行业领先的多模态统一审核能力

在多模态大模型快速发展背景下，风险已从单一文本扩展至图像、音频及跨模态组合场景。传统“烟囱式”审核依赖OCR、人脸识别、风控模型等多小模型级联，资源消耗高、难以应对复杂组合风险[2]。百度大模型安全护栏依托大模型泛化理解能力，可精准识别跨模态隐性威胁，实现图文融合风险的统一拦截，展现出行业领先的多模态统一审核能力[2]。

All-in-One 多模态审核大模型

百度大模型安全护栏构建了“All in One”的多模态审核大模型，具备上下文与视觉信息的深层语义关联理解能力[3]。例如，对本身无害图片配以隐喻性违规文字的组合，传统模型易漏判，而该护栏可识别二者结合产生的“化学反应”，有效拦截隐晦的色情、暴恐或敏感内容[3]。通过模型量化、剪枝及提示词优化技术，将多个专用小模型能力融合进统一架构，在降低部署资源消耗的同时，显著提升检测效果，解决传统多模态审核割裂分散的痛点[3]。

正向引导的安全代答能力

面对敏感或高风险问题，百度大模型安全护栏摒弃“一刀切”拒答策略，通过构建精细化信任域RAG处置矩阵，实现从被动拦截到主动引导的升级[4]。信任域RAG可实时调用政府网站、官方媒体及百科等权威信源，确保回答与官方口径一致；针对涉政等高敏感问题，系统接入红线知识库服务，结合检索增强生成（RAG）技术进行价值观正向引导与不良倾向驳斥[4]。

全链路高级攻击防御体系

针对日益隐蔽的提示词注入、“越狱攻击”及逻辑陷阱等新型攻击，百度大模型安全护栏具备深度上下文意图分析能力，可精准识别并阻断高级攻击[5]。其Prompt审核服务覆盖代码攻击、前缀注入、拒绝遏制等多种复杂攻击类型[5]。系统采用输入输出双侧API全链路管控，在模型推理前即完成恶意指令语义清洗；并通过持续更新攻击样本、微调“裁判大模型”开展自动化对抗测试，实现防御能力自适应进化，大幅降低企业红蓝对抗建设门槛[5]。

端云协同的立体化安全落地

百度大模型安全护栏已在AIPC、智能终端等前沿场景规模化落地。针对端侧算力有限、隐私要求高及离线运行需求，推出端云协同方案：终端部署量化压缩后的离线审核算子，满足国家对离线审核的强制性要求；云端则运行“红线大模型”，形成覆盖云、边、端的立体防御体系[6]，为千行百业智能化转型注入原生安全基因[6]。

贯穿全生命周期的原生安全体系

百度大模型安全护栏坚持将安全理念嵌入大模型全生命周期，涵盖数据清洗、安全对齐、内生安全及安全运营四大环节，构建完整原生安全体系[7]。未来将持续投入人工智能安全技术研发，携手行业伙伴推动大模型安全健康发展，助力构建安全可信的AI应用环境[7]。

【声明】内容源于网络

百度AI

各类跨境出海行业相关资讯

内容 3429

粉丝 0

百度AI 各类跨境出海行业相关资讯

总阅读12.0k

粉丝0

内容3.4k