分享
OpenAI推出CoT监测系统,遏制大模型不当行为
2025-03-11 09:17 星期二
OpenAI发布了一项新研究,采用CoT监控方法能够有效防止大型模型产生不当言论、隐瞒真实意图等恶意行为,并且是监督高级模型的有效手段之一。该研究中,最新的前沿模型o3-mini作为被监控对象,而较弱的GPT-4o模型则扮演监控器角色。实验设定为编码任务,在代码库中实现特定功能并通过单元测试。结果显示,CoT监控器在检测系统性的“奖励黑客”行为时表现出色,达到了95%的高召回率,显著优于仅关注行为监控的60%。
新闻推荐
查看更多
大数新闻社群
7x24h跨境新闻推送
加入卖家交流群


