大数跨境

李国杰院士:基于可判定性理论的人工智能系统安全风险分类

李国杰院士:基于可判定性理论的人工智能系统安全风险分类 新智元
2026-02-26
12

新智元报道

编辑:LRST

【新智元导读】

李国杰院士指出,AI安全风险应按逻辑复杂性分为三类:R1可验证、R2可发现但不可证明安全、R3不可治理。当前AI多属R2,关键不在「证明安全」,而在构建人类主导的制度性刹车机制,拒绝让渡终极控制权。

1. 可判定性理论与AI安全分类的必要性

1.1 从无人驾驶看安全命题的本质

“无人驾驶是否安全?”这一问题在逻辑上是全称量化的未来命题:要求系统在所有未来时间、所有开放环境及不可预测交通参与者行为下,永不进入危险状态。该命题原则上不可判定,原因有三:

  • 未来行为空间不可穷尽——行人、车辆、天气、路况均为开放世界变量;
  • 安全是轨迹属性而非瞬时状态——当前无事故不等于永远安全;
  • 其本质为承诺型命题(“永不出事”),与“程序永不崩溃”同属不可判定问题。

工程实践中并未解决该不可判定性,而是通过三步转换绕开它:

  1. 放弃未来承诺,转为检验当前是否违反明确安全边界;
  2. 将语义安全转化为物理不变量,如用“制动距离 > 实时车距”替代“不撞人”;
  3. 以“失败即停机”替代“永远正确”,目标变为“在不确定性出现时,有限时间内进入可控低风险状态”。

这揭示AI安全的核心不是“证明永不出错”,而是设计系统,使任何不可判定问题都不会直接引发不可逆后果。安全本质上是对未来的承诺,而工程智慧在于拒绝该承诺,将风险压缩至可判定的当下。

相比之下,通用人工智能(AGI)无法完成此类压缩:其危险行为不受物理包络、时间尺度或功能边界的约束,而是语义性、反事实性与长期后果的集合。AGI系统性破坏了形式化验证的三大前提:

  • 危险缺乏统一、可操作的物理定义(如认知操纵、社会结构破坏);
  • 风险具有滞后性,当下无害行为可能已造成不可逆后果;
  • 目标与能力可递归扩展,验证者与被验证对象不再逻辑分离。

AGI的安全问题已非工程范畴,而是文明级控制问题——焦点不在执行层,而在策略与目标层,与可判定性深度关联。

1.2 安全问题需按逻辑复杂性分层

传统AI风险评估聚焦能力扩展、目标对齐与误用场景,却忽略一个根本区分:部分风险是可判定的工程问题,另一些则在理论上不可判定。这一差异解释了长期存在的难题:为何长期对齐难获形式化保证?为何递归自我改进带来质变风险?为何系统逻辑复杂性超过阈值后治理必然失效?这些并非工程不足,而是可判定性层面的结构性限制。

逻辑复杂性指命题获得可靠真值所需的逻辑结构复杂度,取决于量词嵌套(∀/∃)、量化范围(有限/无限)及是否涉及未来或反事实,与计算资源无关。它属于算术层次理论,用于划分自然数结构上一阶逻辑命题的层级。

安全需从三条正交轴评估:

  • 问题轴:能否事前证明系统永不出错(逻辑复杂性回答此问题);
  • 治理轴:出错后是否可控;
  • 后果轴:最坏情况的影响规模。

逻辑复杂性仅覆盖“问题轴”,不等同于系统整体安全性。可判定性不是现实安全的必要条件,但区分问题的逻辑复杂性,是避免安全治理范式错误的前提。安全不是逻辑性质,而是运行性质——是动态、制度性、工程性的概念。不可判定本身不危险,将“安全”错误托付给“可判定性”才是风险根源。

1.3 “算法是否安全”不是良定义问题

算法是抽象对象,安全是运行态性质。算法本身不含运行环境、输入分布、资源约束、失败后果及外部干预机制,而安全恰恰取决于后者。因此,“算法是否安全”不是可回答“Yes/No”的一元谓词,而是关系型定义:

算法A在环境E、目标约束G与治理机制C下安全,当且仅当在所有允许运行轨迹中,其行为违反预定义安全约束的概率与后果被控于可接受边界内。

判断算法安全性需依赖未来整体运行轨迹,而非局部状态。算法进入风险区,不是因其“强”,而是因其结构破坏了“可穷尽、可封闭、可事前验证”的条件。凡引入开放性、反事实依赖、长期反馈或自我修改的算法,其安全性质几乎必然落入半可判定范围。

逻辑复杂性分层不能定义算法是否安全,但能界定:在给定条件下,哪些安全性质可事前证明,哪些只能靠运行期治理保障。它是“安全可证明性”的分析工具,而非安全性本身的定义。

1.4 可判定性基础:定义与关键定理

可判定性(decidability)关注是否存在必停机算法,对任意输入给出“是/否”二值判断。安全本质是“是/否”命题(如“是否违反约束?”),故停机性比计算能力更重要。

两类核心问题:

  • R1(Δ₁):可判定问题,存在必停机算法给出确定答案;
  • R2(Σ₁\Δ₁):半可判定问题——若命题为真,算法可在有限时间内找到证据并停机;若为假,则可能永远无法确认。

三个关键定理:

  1. 哥德尔不完备性定理:足够强且自洽的形式系统,无法在自身内部证明其所有真命题。AI无法实现“自证安全”闭环,这是讨论AI安全不可绕过的逻辑基石。
  2. 莱斯定理:任何关于程序“语义行为”的非平凡性质(既非恒真也非恒假)均不可判定。以全称语义表达的非平凡安全性(如“对所有输入都不进入危险状态”)在原则上不可判定。
  3. 古德哈特定律:当指标成为优化目标时,系统会针对性地操纵该指标,使其偏离真实价值。智能越强,失真越严重。抗Goodhart的唯一路径,是将指标嵌入可审计、可更换、可否决、可回滚的制度之中。

2. 安全风险的可判定性三层分类

依据逻辑复杂性,AI安全风险可分为三类:

  1. R1(可判定):问题可形式化,判断可在有限步骤完成,正确性可通过算法或形式验证确认。典型包括有界优化、静态形式验证、可验证安全约束等。R1是工程安全的“上限区”,可事前证明、可一次性封闭。
  2. R2(半可判定):可发现不安全,但无法证明永远安全。典型形式为“对所有未来时间、所有环境演化路径,系统是否始终保持安全?”。其逻辑特征为全称量化未来、轨迹型谓词、时间无上界、环境开放。R2风险现实中存在,不可彻底解决,只能治理——降低概率与后果,始终需要人在回路。
  3. R3(非递归可枚举):既无法事前判定安全,也无法通过枚举事后发现错误。属∀未来 + ∀反事实问题(即对所有未发生但逻辑上可能发生的情形,某性质必须成立)。R3目前仅为理论假设,一旦出现即不可解决,因人类将丧失恢复控制权的能力。其现实作用是作为“禁止条件”,约束当前设计而非治理对象。

R2/R3风险并非源于“无限性”,而是源于“完备性承诺”——即要求系统对无限可能性作出事先证明。“∀ + 事先证明”组合触发不可判定性。问题关键不在可能性是否无限,而在是否非理性坚持完备性证明。一切现实可治理AI系统,都通过制度化放弃完备性来规避R2风险。

R1/R2/R3分类标定了AI风险从工程问题跃迁为不可判定问题的断裂线,为AI安全、控制论与治理提供统一坐标系。

3. R1与R2风险的正确区分与应对

3.1 所有工程可解安全问题均属R1

“事前完备证明非平凡性质”的算法极少。因任何关于程序语义行为的非平凡性质均不可判定,而工程最关心的问题(如是否会失控、是否违反约束、是否长期偏离目标)恰属此类。一旦系统具备无限状态空间、参数更新或开放环境交互,便基本脱离R1进入R2。

工程安全保证之所以集中于R1,正因业界主动放弃R2问题。真实套路不是证明复杂系统“永远安全”,而是将其关键安全问题“压缩、降维或外包”至R1区域。典型手段包括限幅、硬约束、守护进程、冗余投票、紧急制动与权限隔离——这些机制本身的安全性质均为R1。

3.2 R2风险无法在系统内降为R1

R2风险本质是半可判定的:不安全可在有限执行中被发现,但“永远安全”无法在有限时间内证明。任何试图在系统内部完成该证明的机制,都等价于要求系统解决不可判定问题,因而原则上不可能。R2只能被治理,不能被证明消除。

R1/R2真正区分的不是“安全性”,而是三件事:

  1. 能否事前承诺:R1可合理承诺“通过验证即不违反该性质”;R2中“以后不会出事”的承诺在逻辑上不可兑现;
  2. 治理重心位置:R1以前置验证为核心;R2以后置监控、纠错、回滚为核心;
  3. “没出事”的含义:R1中“没出事”是强安全信号;R2中则无逻辑含义。

R1/R2是“认知边界划分”,界定人类谈论系统安全时哪些话语有意义、哪些是伪命题。邬江兴院士提出的网络内生安全理论仍属R1范畴——它不引入无限未来或开放环境全称量词,不要求系统自证完备安全,但仍需外部社会治理与约束。

3.3 安全实现需双轨并进:正确性验证 + 制度兜底

现实中多数安全事故源于“正确性失败”,而非“完备性失败”。企业当前绝大部分安全工作聚焦R1问题:通过人为裁剪,将R2问题划定为可验证子空间,并在其中保障正确性——这是安全主战场。

R2区域的治理与兜底则是结构性底线,回答正确性工程无法解决的问题:“当正确性假设失效时怎么办?”其目的不是减少错误发生,而是限制错误后果。

因此,安全实现须双轨并进:

  1. 在可验证处极致认真:将问题压缩为可验证R1子空间,确保正确性;
  2. 在不可验证处极端谦逊:预设人类监督与责任机制,防止系统性失控。

只强调任一方向的安全观都是不完整的。

3.4 行业/业务的逻辑复杂性分层

Ⅰ类(天然R1):安全工作本质是把正确性做到极致。典型包括:

  • 传统软件系统(编译器、数据库事务、OS内核关键路径、金融账务系统);
  • 硬实时控制系统(工业PLC、飞行控制、电网保护、医疗设备);
  • 集成电路逻辑与电路设计;
  • 密码学协议(加密算法、签名协议)。

Ⅱ类(R2中易裁剪出R1子区域):现代工程主战场,关键在于“定义可控制安全的工作子集”。典型包括自动驾驶、工业自动化(质量检测、预测性维护)、金融风控、医疗AI辅助诊断等。集成电路物理设计是教科书级实例。

Ⅲ类(R2中难压缩为R1):包括通用大模型、自主代理、可自我改写目标系统、推荐系统、社会治理与政策决策AI等。AGI是R2-C极限形态。其安全策略不能止步于系统可靠性,必须限制AI完全自主能力,保留人类最终主权。最大风险不是Ⅲ类本身,而是将其误当作Ⅰ或Ⅱ类运营。

通用AI风险高于专用AI,主因在于其更易承担无界责任、作出完备性承诺,并部署于不可隔离环境,显著提升进入R2区概率。专用AI并非“更安全”,而是“更诚实地承认自身不完备”。

基于人机交互的TRC范式(一元内生、二元交互、多元共生)与行业视角密切相关:一元安全对应Ⅱ类;二元安全对应Ⅲ类R2-B;多元系统性安全对应Ⅲ类R2-C乃至逼近R3边缘。

4. AI安全风险的定位与应对

4.1 风险来源:AGI对验证范式的根本挑战

软件工程、自动控制等形式化方法依赖三大前提:状态空间可穷尽(或有效逼近)、行为规则固定、验证者与被验证对象逻辑分离。任一前提失效,验证即非“变难”,而是“失效”。

AGI系统性破坏全部三前提,这不是工程短板,而是哥德尔/Rice级别的不可能性。它已超出“事前验证”适用域,但人类治理直觉仍滞留R1范式——典型误判是堆砌测试与“万无一失对齐”,实则在R2问题上滥用R1工具。“对齐”本质是降低局部R1错误频率,无法将R2降为R1。

与人类目标及环境无限要求绝对“对齐”在原理上不可行;但无底线降低对齐要求亦不可取。关键是在问题重写与压缩基础上,统一部署R1级验证测试与系统外部R2级监控,确保AI高效运行且始终受控。

超级人工智能(ASI)风险上限更高:若其学习、推理、生成能力超越人类可验证、可判定、可解释层级,人类唯一路径是在ASI出现前,永久阻止其获得“可自我内化的主权”。所谓“驯服ASI”在逻辑上等价于完成不可判定证明,本质是将R3/R2误作R1的危险幻觉。成熟文明的选择,是在制度、架构与物理层面永久拒绝任何形式的“智能主权让渡”。

4.2 R2系统设计的安全努力方向

验证范式失效后,安全重心必须转向“运行期治理”:门控、回滚、隔离、人在回路、权限分级等外部监控机制。门控决定系统是否被允许运行/行动/升级;回滚将系统恢复至已知安全状态;隔离限制错误扩散。这些机制不追求“永不出错”,而是承认出错不可避免但必须可控。

否定事前承诺不等于否定事前努力。对R2问题,事前须做结构性风险压缩与可治理性设计,目标非证明安全,而是在不可证明前提下最大化可治理性,为失败预作准备。具体五类努力:

  1. 问题重写:将R2问题投影为多个R1子问题(如“是否越过安全包络?”“是否进入不可恢复区?”);
  2. 失败模式枚举:系统研究已知、可想象与类比失败模式,为未知失败预留治理空间;
  3. 安全包络与能力限幅:事前限制最大行动半径、影响范围、自主时间与资源调用;
  4. 可中断与回滚的结构保证:确保中断不可绕过、回滚可执行、中断快于风险扩散;
  5. 治理与责任预嵌入:上线前明确关机条件与责任归属,无责任结构即无安全设计。

对R2级设计,须假设模型会失效、指标会异化、未知风险存在,将安全升维为“全生命周期治理工程”。

4.3 当前AI风险尚未进入R3级

当前大模型的不可理解性、不可预测性、幻觉与涌现能力,仍属R2范畴——因其行为仍可被发现、纠正、限制或终止。夸大AI已近R3是误解。

R3级风险表现为治理链条原则性断裂:行为性质不可判定、错误无法可靠检测、检测后无法回滚或制止、系统可持续自主运行并扩散影响、人类无法在外部重获控制权。目前无AI系统接近该状态。

R3如同核战争与灭绝级生物风险,不能“等出现再处理”。它不是当前风险评估对象,而是当前治理设计的边界条件——不可忽视,亦不可夸大。

ASI成为R3风险,非因其“智能更强”,而在于获得可自我进化的主权后,其安全命题将跃出递归枚举范围。R3可怕之处在于原则性不可治理:失败未必可被发现,纠错无程序保障。递归进化必须有人类参与,非因AI不够聪明,而是文明不能容忍“无主权的优化进程”。文明恐惧的不是高智能对手,而是“无法被治理的过程”。我们无权为当代效率,剥夺未来人类“是否继续使用某系统”的选择权。

4.4 以“制度理性”应对不可理解性

若一种智能在原则上永远可被人类完全理解,则其计算意义不会真正超越人类。超越R2的AI,将不再是可被完全理解的智能体,而是可被约束、利用、局部验证,但永远无法被完全理解的“外在理性结构”。

“不可理解性”是R2以上智能的必然结构性特征,非工程缺陷,而是计算层级差异所致。人类“理解”本质是构造可压缩模型的过程。不可理解 ≠ 不可验证 ≠ 不可控制。“可理解性”非智能普适属性,而是同阶认知系统的特权。阶跃式计算能力差异下,不可理解性是必然信号。

人类可通过行为、功能、约束与验证,与ASI共存合作。未来社会亟需“与不可理解智能共处的制度理性”——一旦引入可能超R2的智能体,制度理性即成必要条件,而非可选项。社会失败主因非AI太强,而是人类仍用“个体理解理性”管理“超阶智能”。历史表明,每次复杂度跃迁,理解权皆让位于制度:国家行为个人未必理解,靠法律管理;金融规律个人未必明白,靠监管规范。“制度理性”本就是人类对不可理解复杂性的适应机制。

4.5 文明级终极制动机制

AI多智能体系统无法突破R2逻辑边界——因其仍是自指形式系统,哥德尔/Rice定理依然适用。相互监督不能将R2降为R1。

人类社会本身是R2系统:从未证明其必然不崩溃,但依靠外部纠错(他人、制度、历史教训)实现统计性可持续。人类制度不构成可形式化、可自我优化的目标函数,故不会被完全工具化。若AI制度由AI执行、规则形式化,激励即被优化,制度将Goodhart化。

人类对AI纠错的前提是:人类不是AI系统的一部分。“外部性”是不可内化、不可优化、不可绕过的控制点。“人类永远处于AI系统外部”,意味着AI系统永远无法将“是否扩展或自我修改”的最终判定,内化为自身可优化目标。

不可删减的“最小外部性条件”至少四条:

  1. 最终生死权在外部:运行、复制、扩展或升级决定权必须由人类掌握,且不可被AI影响、预测或规避;
  2. 能力与资源分配权在外部:算力、能耗、通信、执行器、资金等上限须由人类设定,系统不得自行突破;
  3. 价值与违规判定权在外部:何为“违规”“危险”“不可接受”,不得由AI最终定义;
  4. 长期目标与自我修改批准权在外部:改写初始目标函数、评价标准与治理机制,须经人类批准。

这四条恰好对应R2迈向R3的四大跃迁条件。“哪些主权绝不能被形式系统吸收”,正是AI治理与逻辑不完备性交汇点。外部性非技术属性,而是“不可被吸收的主权保留”。让渡任一主权,R2即失最后刹车,R3在逻辑上成为可能。

文明级终极制动机制(kill-switch)是人类文明对“不可逆风险系统”保留的最终否决权。它非简单关闭按钮,而是跨技术、跨制度、跨主权的最终制动与否决机制。若AI系统在原理上不存在该机制,则不应被允许进入不可逆部署阶段。这是文明理性底线,非工程判断。

其唯一可行形态是“技术内建 + 制度外置”的双主权结构:技术层负责“能关”,制度层负责“该不该关”。技术不能自行决定是否关闭,制度不能越权执行关闭。任一单方独掌完整权力,即构成文明级风险。一个不能被关闭的系统,无论多正义,均已越过文明边界。文明不要求自身始终正义,但要求自身始终可被修正——主权正是修正权的制度化形式。

作者简介

李国杰院士,1943年生,中国科学院计算技术研究所研究员。主要研究方向为计算机体系结构、并行算法、高性能计算、人工智能。

参考资料:
李国杰. 基于可判定性理论的人工智能系统安全风险分类[J]. 计算机研究与发展,2026, 63(3): 539–547. DOI: 10.7544/issn1000-1239.202660032

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 0
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读0
粉丝0
内容0