OpenAI推出CoT监测系统，遏制大模型不当行为

2025-03-11 09:17 星期二

OpenAI发布了一项新研究，采用CoT监控方法能够有效防止大型模型产生不当言论、隐瞒真实意图等恶意行为，并且是监督高级模型的有效手段之一。该研究中，最新的前沿模型o3-mini作为被监控对象，而较弱的GPT-4o模型则扮演监控器角色。实验设定为编码任务，在代码库中实现特定功能并通过单元测试。结果显示，CoT监控器在检测系统性的“奖励黑客”行为时表现出色，达到了95%的高召回率，显著优于仅关注行为监控的60%。