在大语言模型(LLM)快速发展的今天,如何确保AI“聪明”的同时,也“可靠”“守规”?IBM与创博数据(DataForce)联合打造的Granite Guardian 3.0模型,正在为AI安全树立新标杆。
把复杂的风险“看清楚”
本次合作的核心任务,是帮助IBM训练出一个更敏锐、更可靠的AI模型,能够精准识别出用户输入或模型回答中那些“潜藏风险”的内容。
这并不是件容易的事,模型必须应对三大挑战:
隐蔽内容识别:许多有害信息“藏得很深”,需要模型具备理解复杂语境的能力;
多维度分类:不仅要识别“有害性”,还要兼顾社会偏见、伦理风险等多个维度;
数据质量要求高:模型要变得“聪明”,离不开大量多样且高质量的训练数据。
“创博数据团队与IBM紧密合作,随着模型开发的推进,不断微调标注策略。通过持续反馈优化,是筛选优质训练数据的关键。”
—— Prasanna Sattigeri,IBM首席研究科学家兼经理
创博数据的“四重助力”
为满足IBM的高标准,创博数据从四个方面提供支持:
模拟真实挑战场景
创博数据设计了大量覆盖多种风险维度的“边缘案例”,帮助模型识别复杂、模糊的提示或回答。
全球视角的标注团队
由具备多元文化背景的标注专家,根据提示内容进行细致分类,如“越狱”“暴力”“亵渎”等,确保模型对不同文化环境下的敏感内容也能做出准确判断。
动态迭代优化流程
通过阶段测试、数据质量分析和持续优化,筛选出对模型训练最有效的数据组合。
深度协同开发机制
创博与IBM持续完善标注标准,并根据模型的反馈结果灵活调整风险维度的优先级,实现“数据与模型共同成长”。
结果亮眼,树立行业新基准
双方的紧密合作带来了显著成果:
成功提升模型识别隐蔽有害内容的能力
在“幻觉检测”“内容安全”“偏见识别”等指标上超越行业平均水平
为大模型的伦理实践提供了可落地的技术路径
“IBM致力于打造符合伦理标准的企业级AI产品,我们非常荣幸能参与其中,为提升AI安全性贡献我们的专业力量。”
—— Kris Perez,创博数据人工智能总监
共创AI可信未来
此次合作不仅展示了数据与模型深度协同的力量,也为整个行业提供了应对AI风险的实战范式。Granite Guardian 3.0的迭代升级,是AI从“可用”走向“可信”的关键一步。
未来,创博数据也将继续携手更多合作伙伴,为构建更加安全、可控、值得信赖的AI世界贡献力量。
更多精选

