

【人工智能】AI 优先意味着安全优先

七元宇宙

2025-12-17

导读：给孩子买辆崭新的自行车，所有人的目光都会集中在自行车上，而不是与之配套的闪亮头盔。但家长们却很在意头盔。

给孩子买辆崭新的自行车，所有人的目光都会集中在自行车上，而不是与之配套的闪亮头盔。但家长们却很在意头盔。

恐怕如今我们很多人在人工智能方面都像孩子一样。我们只关注它有多酷炫，以及它能让我们用它跑多快，却很少关注如何在使用它时确保安全。这很可惜，因为二者缺一不可。

简而言之，在没有事先周密规划安全措施的情况下应用人工智能，不仅仅是冒险，简直就是自寻死路。

人工智能安全究竟意味着什么？

人工智能安全涉及诸多步骤，但或许最重要的在于何时采取这些步骤。要真正有效，人工智能安全必须从设计之初就融入其中。

这意味着，在进行测试之前，我们会考虑如何防止造成伤害。我们会先确保人工智能的运行和结果符合我们的价值观和社会期望，而不是等到出现糟糕的结果之后才去研究如何确保人工智能的运行和结果符合我们的价值观和社会期望。

人工智能安全设计还包括考虑如何使其稳健可靠，即使在不利情况下也能保持可预测的运行状态。这意味着要让人工智能透明化，使其决策易于理解、可审计且公正无偏。

但这其中也包括审视人工智能将要运行的世界。我们需要哪些制度和法律保障措施，尤其是在遵守相关政府法规方面？而且，我必须强调人的因素：人工智能的使用会对与之互动的人们产生什么影响？

从设计上就保证安全，意味着在输入第一个提示之前，就将人工智能安全融入到我们所有的流程、工作流程和操作中。

风险大于担忧

并非所有人都认同这种观点。有些人一听到“安全第一”，就想到“小心翼翼、步履蹒跚，最终被时代抛在后面”。当然，安全第一并非如此。它不必扼杀创新或延缓产品上市。它也不意味着无休止地进行试点，最终却无法规模化。恰恰相反。

这确实意味着要了解人工智能设计中缺乏安全措施所带来的风险。请看以下几个例子。

德勤金融服务中心预测，到 2027 年，仅在美国，基因人工智能就可能导致欺诈损失达到 400 亿美元，而 2023 年为 123 亿美元，复合年增长率达 32%。
带有偏见的决策。案例记录了
由于人工智能使用带有偏见的数据进行训练而导致的医疗偏见。
糟糕的决策会引发更多糟糕的决策。研究表明，比最初由人工智能缺陷导致的错误决策更糟糕的是，这些错误的决策会影响我们的思维方式和未来的决策过程。
真实后果。人工智能提供的错误医疗建议已导致患者死亡。将人工智能的幻觉作为法律先例引用，引发了法律纠纷。此外，人工智能助手提供错误信息导致的软件故障，损害了公司产品及其声誉，并导致用户普遍不满。

事情接下来会变得更加有趣。

智能体人工智能（能够自主运行并根据自身决策采取行动的人工智能）的出现和快速普及，将凸显人工智能安全设计的重要性。

能够代表你行事的AI Agent将非常有用。它不仅可以告诉你最佳航班信息，还能帮你找到并预订机票。如果你想退货，公司的AI Agent不仅可以告诉你退货政策和退货流程，还能帮你处理整个退货交易。

很好——只要AI Agent不会凭空捏造航班信息，或者错误处理你的财务信息。或者搞错公司的退货政策，拒绝合理的退货申请。

不难看出，当前人工智能的安全风险很容易随着大量AI Agent四处活动、做出决策和采取行动而蔓延开来，尤其是在它们不太可能单独行动的情况下。智能体人工智能的真正价值很大程度上来自于AI Agent团队，每个AI Agent负责一部分任务，并通过AI Agent之间的协作来完成工作。

那么，如何在不阻碍创新和扼杀人工智能潜在价值的前提下，从设计之初就注重人工智能的安全性呢？

安全设计实践

临时性的安全检查并非解决之道。将安全措施融入人工智能实施的每个阶段才是正解。

首先要准备好数据。确保数据已标注（必要时已添加注释）、无偏见且高质量。这一点对于训练数据尤为重要。

利用人类反馈训练模型，因为人类的判断对于塑造模型行为至关重要。强化学习与人类反馈（RLHF）及其他类似技术允许标注者对响应进行评分和指导，从而帮助逻辑学习模型（LLM）生成安全且符合人类价值观的输出。

然后，在发布模型之前，务必进行压力测试。红队会使用对抗性提示、极端情况和越狱尝试来诱发不安全行为，从而暴露漏洞。在公开发布之前修复这些漏洞，可以防患于未然，确保安全。

虽然这种测试可以确保您的 AI 模型具有稳健性，但请继续监控它们，密切关注新出现的威胁以及可能需要对模型进行的调整。

同样，应定期监控内容来源和数字互动，以发现欺诈迹象。至关重要的是，应采用人工智能与人工相结合的方式，让人工智能自动化系统处理海量数据，而由经验丰富的人员进行审核，以确保监管到位和准确性。

应用智能体人工智能需要格外谨慎。一个基本要求是：训练智能体了解自身的局限性。当它遇到不确定性、伦理困境、新情况或风险极高的决策时，务必确保它知道如何寻求帮助。

此外，务必在Agent程序中设计可追溯性。这一点尤为重要，它可以确保
Agent程序仅与已验证用户进行交互，从而避免欺诈者影响Agent程序的行为。

如果Agent看起来工作高效，你可能会想放手让他们自由发挥。但我们的经验表明，应该持续监控他们及其执行的任务，以防出现错误或异常行为。同时采用自动化检查和人工审核。

事实上，人工智能安全的关键要素之一是人类的定期参与。在决策或行动中，凡涉及批判性判断、同理心或细微差别和模糊之处时，都应有人类的参与。

再次强调，这些都是你在人工智能实现过程中预先设计好的实践方法。它们并非是在出现问题后才匆忙想办法将损失降到最低的结果。

它真的有效吗？

从GenAI兴起到如今快速迈向智能体AI，我们始终秉持“人工智能安全至上”的理念，并运用“设计即安全”的框架与客户紧密合作。我们发现，与人们担心的会拖慢发展速度相反，这种理念实际上有助于加速发展。

例如，智能体人工智能有望将客户支持成本降低 25% 至 50%，同时提升客户满意度。但这都取决于信任。

使用人工智能的人必须信任它，而与人工智能客服人员或真正的AI Agent互动的客户，不能经历任何可能动摇他们信任的互动。一次糟糕的体验就可能彻底摧毁消费者对品牌的信心。

我们不信任不安全的事物。因此，当我们把安全机制融入即将推出的人工智能的每一层时，我们就能充满信心地进行部署。而当我们准备好扩展规模时，我们也能快速且充满信心地完成部署。

将“人工智能安全第一”付诸实践或许看似困难重重，但您并非孤军奋战。众多专家可以提供帮助，合作伙伴也能分享他们的经验和心得，助您安全地利用人工智能的价值，而不会影响您的发展。

人工智能的发展至今为止令人兴奋，随着发展速度的加快，我感到无比激动。但我同时也庆幸自己时刻保持警惕。

免责声明：

本文所发布的内容和图片旨在传播行业信息，版权归原作者所有，非商业用途。如有侵权，请与我们联系删除。所有信息不构成任何投资建议，加密市场具有高度风险，投资者应基于自身判断和谨慎评估做出决策。投资有风险，入市需谨慎。

设为星标 🌟🌟🌟 避免错过

虚拟世界没有旁观者，每个点赞都是创造历史的像素

关注我，一起探索AWM⁺

推荐阅读

加密货币制裁：区块链会不会过于开放？

2025-12-10

1984 年的处理器问题：Web3 的扩展需要的是 P2P 清算，而不是更大的区块链 | 观点

2025-12-09

封建主义2.0：科技巨头如何成为新的统治者 | 观点

2025-12-08

商业赞助

点击下方 “目录” 阅读更多

【声明】内容源于网络

七元宇宙

AI、Web3、Meta聚合型精选内容分享。以前沿视角，探索科技未来；让每一个人，都走在时代的前沿

内容 3217

粉丝 0

七元宇宙 AI、Web3、Meta聚合型精选内容分享。以前沿视角，探索科技未来；让每一个人，都走在时代的前沿

总阅读11

粉丝0

内容3.2k