李国杰院士：基于可判定性理论的人工智能系统安全风险分类- 大数跨境

首页

李国杰院士：基于可判定性理论的人工智能系统安全风险分类

新智元

2026-02-26

新智元报道

编辑：LRST

【新智元导读】

李国杰院士指出，AI安全风险应按逻辑复杂性分为三类：R1可验证、R2可发现但不可证明安全、R3不可治理。当前AI多属R2，关键不在「证明安全」，而在构建人类主导的制度性刹车机制，拒绝让渡终极控制权。

1. 可判定性理论与AI安全分类的必要性

1.1 从无人驾驶看安全命题的本质

“无人驾驶是否安全？”这一问题在逻辑上是全称量化的未来命题：要求系统在所有未来时间、所有开放环境及不可预测交通参与者行为下，永不进入危险状态。该命题原则上不可判定，原因有三：

未来行为空间不可穷尽——行人、车辆、天气、路况均为开放世界变量；
安全是轨迹属性而非瞬时状态——当前无事故不等于永远安全；
其本质为承诺型命题（“永不出事”），与“程序永不崩溃”同属不可判定问题。

工程实践中并未解决该不可判定性，而是通过三步转换绕开它：

放弃未来承诺，转为检验当前是否违反明确安全边界；
将语义安全转化为物理不变量，如用“制动距离 > 实时车距”替代“不撞人”；
以“失败即停机”替代“永远正确”，目标变为“在不确定性出现时，有限时间内进入可控低风险状态”。

这揭示AI安全的核心不是“证明永不出错”，而是设计系统，使任何不可判定问题都不会直接引发不可逆后果。安全本质上是对未来的承诺，而工程智慧在于拒绝该承诺，将风险压缩至可判定的当下。

相比之下，通用人工智能（AGI）无法完成此类压缩：其危险行为不受物理包络、时间尺度或功能边界的约束，而是语义性、反事实性与长期后果的集合。AGI系统性破坏了形式化验证的三大前提：

危险缺乏统一、可操作的物理定义（如认知操纵、社会结构破坏）；
风险具有滞后性，当下无害行为可能已造成不可逆后果；
目标与能力可递归扩展，验证者与被验证对象不再逻辑分离。

AGI的安全问题已非工程范畴，而是文明级控制问题——焦点不在执行层，而在策略与目标层，与可判定性深度关联。

1.2 安全问题需按逻辑复杂性分层

传统AI风险评估聚焦能力扩展、目标对齐与误用场景，却忽略一个根本区分：部分风险是可判定的工程问题，另一些则在理论上不可判定。这一差异解释了长期存在的难题：为何长期对齐难获形式化保证？为何递归自我改进带来质变风险？为何系统逻辑复杂性超过阈值后治理必然失效？这些并非工程不足，而是可判定性层面的结构性限制。

逻辑复杂性指命题获得可靠真值所需的逻辑结构复杂度，取决于量词嵌套（∀/∃）、量化范围（有限/无限）及是否涉及未来或反事实，与计算资源无关。它属于算术层次理论，用于划分自然数结构上一阶逻辑命题的层级。

安全需从三条正交轴评估：

问题轴：能否事前证明系统永不出错（逻辑复杂性回答此问题）；
治理轴：出错后是否可控；
后果轴：最坏情况的影响规模。

逻辑复杂性仅覆盖“问题轴”，不等同于系统整体安全性。可判定性不是现实安全的必要条件，但区分问题的逻辑复杂性，是避免安全治理范式错误的前提。安全不是逻辑性质，而是运行性质——是动态、制度性、工程性的概念。不可判定本身不危险，将“安全”错误托付给“可判定性”才是风险根源。

1.3 “算法是否安全”不是良定义问题

算法是抽象对象，安全是运行态性质。算法本身不含运行环境、输入分布、资源约束、失败后果及外部干预机制，而安全恰恰取决于后者。因此，“算法是否安全”不是可回答“Yes/No”的一元谓词，而是关系型定义：

算法A在环境E、目标约束G与治理机制C下安全，当且仅当在所有允许运行轨迹中，其行为违反预定义安全约束的概率与后果被控于可接受边界内。

判断算法安全性需依赖未来整体运行轨迹，而非局部状态。算法进入风险区，不是因其“强”，而是因其结构破坏了“可穷尽、可封闭、可事前验证”的条件。凡引入开放性、反事实依赖、长期反馈或自我修改的算法，其安全性质几乎必然落入半可判定范围。

逻辑复杂性分层不能定义算法是否安全，但能界定：在给定条件下，哪些安全性质可事前证明，哪些只能靠运行期治理保障。它是“安全可证明性”的分析工具，而非安全性本身的定义。

1.4 可判定性基础：定义与关键定理

可判定性（decidability）关注是否存在必停机算法，对任意输入给出“是/否”二值判断。安全本质是“是/否”命题（如“是否违反约束？”），故停机性比计算能力更重要。

两类核心问题：

R1（Δ₁）：可判定问题，存在必停机算法给出确定答案；
R2（Σ₁\Δ₁）：半可判定问题——若命题为真，算法可在有限时间内找到证据并停机；若为假，则可能永远无法确认。

三个关键定理：

哥德尔不完备性定理：足够强且自洽的形式系统，无法在自身内部证明其所有真命题。AI无法实现“自证安全”闭环，这是讨论AI安全不可绕过的逻辑基石。
莱斯定理：任何关于程序“语义行为”的非平凡性质（既非恒真也非恒假）均不可判定。以全称语义表达的非平凡安全性（如“对所有输入都不进入危险状态”）在原则上不可判定。
古德哈特定律：当指标成为优化目标时，系统会针对性地操纵该指标，使其偏离真实价值。智能越强，失真越严重。抗Goodhart的唯一路径，是将指标嵌入可审计、可更换、可否决、可回滚的制度之中。

2. 安全风险的可判定性三层分类

依据逻辑复杂性，AI安全风险可分为三类：

R1（可判定）：问题可形式化，判断可在有限步骤完成，正确性可通过算法或形式验证确认。典型包括有界优化、静态形式验证、可验证安全约束等。R1是工程安全的“上限区”，可事前证明、可一次性封闭。
R2（半可判定）：可发现不安全，但无法证明永远安全。典型形式为“对所有未来时间、所有环境演化路径，系统是否始终保持安全？”。其逻辑特征为全称量化未来、轨迹型谓词、时间无上界、环境开放。R2风险现实中存在，不可彻底解决，只能治理——降低概率与后果，始终需要人在回路。
R3（非递归可枚举）：既无法事前判定安全，也无法通过枚举事后发现错误。属∀未来 + ∀反事实问题（即对所有未发生但逻辑上可能发生的情形，某性质必须成立）。R3目前仅为理论假设，一旦出现即不可解决，因人类将丧失恢复控制权的能力。其现实作用是作为“禁止条件”，约束当前设计而非治理对象。

R2/R3风险并非源于“无限性”，而是源于“完备性承诺”——即要求系统对无限可能性作出事先证明。“∀ + 事先证明”组合触发不可判定性。问题关键不在可能性是否无限，而在是否非理性坚持完备性证明。一切现实可治理AI系统，都通过制度化放弃完备性来规避R2风险。

R1/R2/R3分类标定了AI风险从工程问题跃迁为不可判定问题的断裂线，为AI安全、控制论与治理提供统一坐标系。

3. R1与R2风险的正确区分与应对

3.1 所有工程可解安全问题均属R1

“事前完备证明非平凡性质”的算法极少。因任何关于程序语义行为的非平凡性质均不可判定，而工程最关心的问题（如是否会失控、是否违反约束、是否长期偏离目标）恰属此类。一旦系统具备无限状态空间、参数更新或开放环境交互，便基本脱离R1进入R2。

工程安全保证之所以集中于R1，正因业界主动放弃R2问题。真实套路不是证明复杂系统“永远安全”，而是将其关键安全问题“压缩、降维或外包”至R1区域。典型手段包括限幅、硬约束、守护进程、冗余投票、紧急制动与权限隔离——这些机制本身的安全性质均为R1。

3.2 R2风险无法在系统内降为R1

R2风险本质是半可判定的：不安全可在有限执行中被发现，但“永远安全”无法在有限时间内证明。任何试图在系统内部完成该证明的机制，都等价于要求系统解决不可判定问题，因而原则上不可能。R2只能被治理，不能被证明消除。

R1/R2真正区分的不是“安全性”，而是三件事：

能否事前承诺：R1可合理承诺“通过验证即不违反该性质”；R2中“以后不会出事”的承诺在逻辑上不可兑现；
治理重心位置：R1以前置验证为核心；R2以后置监控、纠错、回滚为核心；
“没出事”的含义：R1中“没出事”是强安全信号；R2中则无逻辑含义。

R1/R2是“认知边界划分”，界定人类谈论系统安全时哪些话语有意义、哪些是伪命题。邬江兴院士提出的网络内生安全理论仍属R1范畴——它不引入无限未来或开放环境全称量词，不要求系统自证完备安全，但仍需外部社会治理与约束。

3.3 安全实现需双轨并进：正确性验证 + 制度兜底

现实中多数安全事故源于“正确性失败”，而非“完备性失败”。企业当前绝大部分安全工作聚焦R1问题：通过人为裁剪，将R2问题划定为可验证子空间，并在其中保障正确性——这是安全主战场。

R2区域的治理与兜底则是结构性底线，回答正确性工程无法解决的问题：“当正确性假设失效时怎么办？”其目的不是减少错误发生，而是限制错误后果。

因此，安全实现须双轨并进：

在可验证处极致认真：将问题压缩为可验证R1子空间，确保正确性；
在不可验证处极端谦逊：预设人类监督与责任机制，防止系统性失控。

只强调任一方向的安全观都是不完整的。

3.4 行业/业务的逻辑复杂性分层

Ⅰ类（天然R1）：安全工作本质是把正确性做到极致。典型包括：

传统软件系统（编译器、数据库事务、OS内核关键路径、金融账务系统）；
硬实时控制系统（工业PLC、飞行控制、电网保护、医疗设备）；
集成电路逻辑与电路设计；
密码学协议（加密算法、签名协议）。

Ⅱ类（R2中易裁剪出R1子区域）：现代工程主战场，关键在于“定义可控制安全的工作子集”。典型包括自动驾驶、工业自动化（质量检测、预测性维护）、金融风控、医疗AI辅助诊断等。集成电路物理设计是教科书级实例。

Ⅲ类（R2中难压缩为R1）：包括通用大模型、自主代理、可自我改写目标系统、推荐系统、社会治理与政策决策AI等。AGI是R2-C极限形态。其安全策略不能止步于系统可靠性，必须限制AI完全自主能力，保留人类最终主权。最大风险不是Ⅲ类本身，而是将其误当作Ⅰ或Ⅱ类运营。

通用AI风险高于专用AI，主因在于其更易承担无界责任、作出完备性承诺，并部署于不可隔离环境，显著提升进入R2区概率。专用AI并非“更安全”，而是“更诚实地承认自身不完备”。

基于人机交互的TRC范式（一元内生、二元交互、多元共生）与行业视角密切相关：一元安全对应Ⅱ类；二元安全对应Ⅲ类R2-B；多元系统性安全对应Ⅲ类R2-C乃至逼近R3边缘。

4. AI安全风险的定位与应对

4.1 风险来源：AGI对验证范式的根本挑战

软件工程、自动控制等形式化方法依赖三大前提：状态空间可穷尽（或有效逼近）、行为规则固定、验证者与被验证对象逻辑分离。任一前提失效，验证即非“变难”，而是“失效”。

AGI系统性破坏全部三前提，这不是工程短板，而是哥德尔/Rice级别的不可能性。它已超出“事前验证”适用域，但人类治理直觉仍滞留R1范式——典型误判是堆砌测试与“万无一失对齐”，实则在R2问题上滥用R1工具。“对齐”本质是降低局部R1错误频率，无法将R2降为R1。

与人类目标及环境无限要求绝对“对齐”在原理上不可行；但无底线降低对齐要求亦不可取。关键是在问题重写与压缩基础上，统一部署R1级验证测试与系统外部R2级监控，确保AI高效运行且始终受控。

超级人工智能（ASI）风险上限更高：若其学习、推理、生成能力超越人类可验证、可判定、可解释层级，人类唯一路径是在ASI出现前，永久阻止其获得“可自我内化的主权”。所谓“驯服ASI”在逻辑上等价于完成不可判定证明，本质是将R3/R2误作R1的危险幻觉。成熟文明的选择，是在制度、架构与物理层面永久拒绝任何形式的“智能主权让渡”。

4.2 R2系统设计的安全努力方向

验证范式失效后，安全重心必须转向“运行期治理”：门控、回滚、隔离、人在回路、权限分级等外部监控机制。门控决定系统是否被允许运行/行动/升级；回滚将系统恢复至已知安全状态；隔离限制错误扩散。这些机制不追求“永不出错”，而是承认出错不可避免但必须可控。

否定事前承诺不等于否定事前努力。对R2问题，事前须做结构性风险压缩与可治理性设计，目标非证明安全，而是在不可证明前提下最大化可治理性，为失败预作准备。具体五类努力：

问题重写：将R2问题投影为多个R1子问题（如“是否越过安全包络？”“是否进入不可恢复区？”）；
失败模式枚举：系统研究已知、可想象与类比失败模式，为未知失败预留治理空间；
安全包络与能力限幅：事前限制最大行动半径、影响范围、自主时间与资源调用；
可中断与回滚的结构保证：确保中断不可绕过、回滚可执行、中断快于风险扩散；
治理与责任预嵌入：上线前明确关机条件与责任归属，无责任结构即无安全设计。

对R2级设计，须假设模型会失效、指标会异化、未知风险存在，将安全升维为“全生命周期治理工程”。

4.3 当前AI风险尚未进入R3级

当前大模型的不可理解性、不可预测性、幻觉与涌现能力，仍属R2范畴——因其行为仍可被发现、纠正、限制或终止。夸大AI已近R3是误解。

R3级风险表现为治理链条原则性断裂：行为性质不可判定、错误无法可靠检测、检测后无法回滚或制止、系统可持续自主运行并扩散影响、人类无法在外部重获控制权。目前无AI系统接近该状态。

R3如同核战争与灭绝级生物风险，不能“等出现再处理”。它不是当前风险评估对象，而是当前治理设计的边界条件——不可忽视，亦不可夸大。

ASI成为R3风险，非因其“智能更强”，而在于获得可自我进化的主权后，其安全命题将跃出递归枚举范围。R3可怕之处在于原则性不可治理：失败未必可被发现，纠错无程序保障。递归进化必须有人类参与，非因AI不够聪明，而是文明不能容忍“无主权的优化进程”。文明恐惧的不是高智能对手，而是“无法被治理的过程”。我们无权为当代效率，剥夺未来人类“是否继续使用某系统”的选择权。

4.4 以“制度理性”应对不可理解性

若一种智能在原则上永远可被人类完全理解，则其计算意义不会真正超越人类。超越R2的AI，将不再是可被完全理解的智能体，而是可被约束、利用、局部验证，但永远无法被完全理解的“外在理性结构”。

“不可理解性”是R2以上智能的必然结构性特征，非工程缺陷，而是计算层级差异所致。人类“理解”本质是构造可压缩模型的过程。不可理解 ≠ 不可验证 ≠ 不可控制。“可理解性”非智能普适属性，而是同阶认知系统的特权。阶跃式计算能力差异下，不可理解性是必然信号。

人类可通过行为、功能、约束与验证，与ASI共存合作。未来社会亟需“与不可理解智能共处的制度理性”——一旦引入可能超R2的智能体，制度理性即成必要条件，而非可选项。社会失败主因非AI太强，而是人类仍用“个体理解理性”管理“超阶智能”。历史表明，每次复杂度跃迁，理解权皆让位于制度：国家行为个人未必理解，靠法律管理；金融规律个人未必明白，靠监管规范。“制度理性”本就是人类对不可理解复杂性的适应机制。

4.5 文明级终极制动机制

AI多智能体系统无法突破R2逻辑边界——因其仍是自指形式系统，哥德尔/Rice定理依然适用。相互监督不能将R2降为R1。

人类社会本身是R2系统：从未证明其必然不崩溃，但依靠外部纠错（他人、制度、历史教训）实现统计性可持续。人类制度不构成可形式化、可自我优化的目标函数，故不会被完全工具化。若AI制度由AI执行、规则形式化，激励即被优化，制度将Goodhart化。

人类对AI纠错的前提是：人类不是AI系统的一部分。“外部性”是不可内化、不可优化、不可绕过的控制点。“人类永远处于AI系统外部”，意味着AI系统永远无法将“是否扩展或自我修改”的最终判定，内化为自身可优化目标。

不可删减的“最小外部性条件”至少四条：

最终生死权在外部：运行、复制、扩展或升级决定权必须由人类掌握，且不可被AI影响、预测或规避；
能力与资源分配权在外部：算力、能耗、通信、执行器、资金等上限须由人类设定，系统不得自行突破；
价值与违规判定权在外部：何为“违规”“危险”“不可接受”，不得由AI最终定义；
长期目标与自我修改批准权在外部：改写初始目标函数、评价标准与治理机制，须经人类批准。

这四条恰好对应R2迈向R3的四大跃迁条件。“哪些主权绝不能被形式系统吸收”，正是AI治理与逻辑不完备性交汇点。外部性非技术属性，而是“不可被吸收的主权保留”。让渡任一主权，R2即失最后刹车，R3在逻辑上成为可能。

文明级终极制动机制（kill-switch）是人类文明对“不可逆风险系统”保留的最终否决权。它非简单关闭按钮，而是跨技术、跨制度、跨主权的最终制动与否决机制。若AI系统在原理上不存在该机制，则不应被允许进入不可逆部署阶段。这是文明理性底线，非工程判断。

其唯一可行形态是“技术内建 + 制度外置”的双主权结构：技术层负责“能关”，制度层负责“该不该关”。技术不能自行决定是否关闭，制度不能越权执行关闭。任一单方独掌完整权力，即构成文明级风险。一个不能被关闭的系统，无论多正义，均已越过文明边界。文明不要求自身始终正义，但要求自身始终可被修正——主权正是修正权的制度化形式。

作者简介

李国杰院士，1943年生，中国科学院计算技术研究所研究员。主要研究方向为计算机体系结构、并行算法、高性能计算、人工智能。

参考资料：
李国杰. 基于可判定性理论的人工智能系统安全风险分类[J]. 计算机研究与发展，2026, 63(3): 539–547. DOI: 10.7544/issn1000-1239.202660032

【声明】内容源于网络

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

内容 0

粉丝 0

新智元智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

总阅读0

粉丝0

内容0