导语
Laux (2024) 为欧盟《人工智能法案》第 14 条(Art.14)设计了一套以“制度化不信任”为核心的监督原则,旨在不预设监督者善意的前提下约束其行为。但该框架的效力依赖若干隐含前提:监督者能够置身被监督系统之外、错误能够在事后被矫正、监督者的认知足以理解被监督对象、制度能够在治理周期内保持稳定。本文指出,这四类前提在公司内部 Agentic Workflow(智能体工作流)部署场景下逐一松动。为检验前提的失效边界,本文引入王亚军提出的“第一人称管理理论”(FPM)作为交叉验证视角——从第一人称决策处境出发探测前提的成立条件,而非提出竞争框架。分析揭示四个方向的失效:监督者与 AI Agent 共同构成决策而无法外在、不可逆操作使事后矫正失效、监督者认知盲区无法靠训练消除、被治理对象的演化速度超出制度更新周期。据此提出八条探索性修正建议供实践参考,并讨论 FPM 自身的适用边界与后续实证方向。
关键词:制度化不信任、人在回路(Human-in-the-Loop, HITL)、Agentic Workflow(智能体工作流)、AI 治理、欧盟《人工智能法案》(AI Act)、第一人称管理理论(First-Person Management, FPM)

论文题目:Institutionalised distrust and human oversight of artificial intelligence: towards a democratic design of AI governance under the European Union AI Act
论文链接:https://dl.acm.org/doi/10.1007/s00146-023-01777-z
发表时间:2023年10月06日
论文来源:PNAS
论文题目:First-Person Management (FPM): The Right Kind of Physics Envy
论文链接:https://dx.doi.org/10.2139/ssrn.6554921
发表时间:2026年4月20日
论文来源:SSRN
1. 引入
1. 引入
人工智能的快速渗透在社会中引发了不断积累的张力。公众对算法决策可能侵蚀基本权利的担忧持续加剧,社会评分(social credit)、生物识别滥用、“深度伪造”(Deepfakes)等议题频繁进入公共议程;与此同时,欧盟在全球 AI 产业竞争中希望建立差异化的“可信 AI”的品牌优势,避免在中美技术竞赛中进一步边缘化;各成员国若各自立法则会导致监管碎片化,损害单一数字市场的统一性(European Parliament and Council 2024)。在此背景下,欧盟《人工智能法案》(AI Act)于 2024 年 7 月正式公布,法规编号 Regulation (EU) 2024/1689。该法采用基于风险的分级监管思路,将 AI 系统按潜在危害分为四个等级。不可接受风险(unacceptable risk)禁止对弱势群体的认知行为操纵、社会评分系统及实时远程生物识别等应用。高风险(high risk)涵盖安全或基本权利有负面影响的 AI 系统,包括纳入欧盟产品安全法规的产品及在关键基础设施、教育、就业、司法等领域的系统。有限风险(limited risk)主要施加透明义务,如生成式 AI 须披露内容由 AI 生成、深度伪造须标注。最小风险(minimal risk)下,大多数 AI 系统属此类,无需额外合规要求(European Parliament and Council 2024)。
四个等级中,高风险类别承担最严格的法定义务。AI Act 为高风险系统规定了数据治理、技术文档、质量管理等多方面要求,但贯穿所有义务的核心问题是:谁对 AI 的行为负责?当 AI 系统做出影响个人权利的决策时,责任链条的最终锚点应落在何处?由此,“人类监督”(Human Oversight)成为高风险监管架构的关键支柱。第 14 条(以下简称 Art.14)规定:“High-risk AI systems shall be designed and developed in such a way, including with appropriate human-machine interface tools, that they can be effectively overseen by natural persons during the period in which they are in use.”(Regulation (EU) 2024/1689, Art.14(1))。
然而,“有效监督”(effective oversight)的操作化界定一直是学术争议的焦点。监督者的认知限制是否构成结构性瓶颈,自动化的反讽是否使人类在关键时刻丧失干预能力,以及当 AI 能力超越监督者时强制人类监督是否反而拉低系统决策水平——三层质疑叠加,使得有效监督从 Art.14 的立法意图变为一个在经验上高度不确定的操作化命题。
正是面对这一困境,Laux (2024) 提出了他的制度化不信任框架。Laux 的核心判断是仅要求人在回路远远不够。Art.14 只规定了必须有人监督,却没有回答“谁来监督监督者”——监督者本身也存在能力不足、利益冲突、认知偏差甚至被监督系统“俘获”等风险(Laux 2024: 2853)。他的解决方案是若不把“对监督者的不信任”内嵌到制度设计中,“恰当的信任”(well-placed trust)无从谈起。从西方民主理论中的制度化不信任传统——特别是 Elster (2013) 的“防弊政保障”(securities against misrule)框架——中,Laux 提炼出一套原则矩阵(Laux 2024)。其目的在于不预设监督者的善意或能力,而是通过制度装置约束其行为。
Laux 的框架面向公共部门,但近两年 AI 治理的主战场正在向公司内部迁移。三个变量同时起作用。其一,AI Act 的域外效力。任何在欧盟市场部署高风险 AI 系统的公司都须遵循 Art.14,无论总部在斯图加特还是深圳。其二,Agentic Workflow(即由 AI Agent 自主规划、推理、使用工具、执行操作的自动化流程)的企业部署正在改变“人监督 AI”的含义本身——监督从对单一输出的审核变为对持续行为流的实时干预(IDC 2025; Gartner 2026)。其三,公司治理结构具有根本异质性。没有民选官员、没有宪法法院、监督者权威来自劳动合同而非公共授权,Laux 的“民主设计”预设在此直接碰壁。Liu (2026) 将治理滞后分解为观察性、制度性和分配性三种形式,指出公共机构无法跟上技术在物理经济中的扩散速度——这一判断在公司内部同样成立,甚至更为紧迫。
问题由此浮现。能否将 Laux 这样具有讨论度和支持度的公共部门原则迁移到公司治理?各公司并不相同,不适用的部分能否识别并加以合理的个性化修正?现有 AI 治理框架多为第三人称制度设计——设计者置身系统之外,假设一个客观的监督者位置,以可逆的时间和实验的方式提出规范性要求。公司内 AI Agent 治理则需要面对实时决策处境,受到信息不完备、时间不可逆、必须承担后果等条件约束。这两种视角之间存在根本的认识论差异。本文的分析同样置身于这一认识论张力之内,所能做的并非提出一个不受视角限制的元立场,而是以内嵌于具体情境的方式展开追问。
因此本文引入第一人称管理理论(FPM)。王亚军先在科普文章中提出这一概念(王亚军 2024),后在研究论文中系统展开(Wang 2026),其核心正是上述认识论差异的形式化。FPM 提炼出四项基本约束——观察者与场不可分离、时间不可逆性、有限自我认知、迭代更新——来自三条独立研究路线的收敛(Wang 2026)。
全文分以下步骤展开。第二节梳理制度化不信任传统、AI 治理中的人在回路文献及 Agentic Workflow 的治理挑战。第三节呈现 Laux 的制度化不信任框架,呈现 FPM 四项基本约束,说明交叉验证方法。第四节用四项约束逐一分析六原则在 Agentic 场景下的裂缝与修正,辅以真实案例作为例证。第五节汇总修正建议,讨论贡献与局限。第六节给出结论。
2. 文献综述
2. 文献综述
“制度化不信任”(institutionalised distrust)的思想根源可追溯至西方民主理论对权力集中的持续警惕。Sztompka (2000) 在分析转型社会的信任重建时指出,信任需要通过制度来制造,而制造信任最有效的方式是系统性地不信任任何单一权力持有者——将制衡机制嵌入制度结构,使个体忠诚让位于结构约束。Braithwaite (1998) 在监管研究中独立提出类似论点,即“将不信任制度化为信任的基石。”Elster (2013) 将这一传统系统化为防弊政保障框架——例如陪审团轮换防止个体俘获,选举周期赋予罢免可能,权力分立避免集中滥用——这些都是制度化的不信任装置。Laux (2024) 直接借用 Elster 的框架,将政治制度中的不信任装置移植到 AI 监督制度设计中。
然而,这一移植存在一个隐含假设,即监督者处于由国家权力背书的制度位置。在公共部门,监督者权威来自宪法授权或选举委托,可诉性指向独立司法体系。框架进入公司语境后,监督者权威来自劳动合同而非公共授权,可诉性指向公司内部投诉机制而非独立司法,两者威慑力存在本质差异。从概念史的角度审视,制度化不信任的设想依赖三重隐含假设:设计者外在性(制度设计者置身于被监督的权力之外)、权力可识别性(权力可被明确边界化并加以制衡)、信任二分(信任与不信任是可清晰切割的二元状态)。三者分别以陪审团制度、三权分立、定期选举为历史原型,在公共部门的制度史中逐渐沉淀为不言自明的前提,但在 AI 治理语境中是否仍然成立,本身需要追问。
制度化不信任本身也有运行成本。轮换需要交接期,分权需要协调开销,透明度要求的信息公开消耗行政资源。在制度相对稳定的环境中,这些成本可被视为“民主的必要代价”。但在 AI 日新月异的当下,过长的制度响应周期可能严重拖慢治理效率——等到轮换完成、分权协调到位、信息公开评议结束时,被治理对象的行为已演化了一个版本。如果制度更新速度赶不上技术演化速度,不信任装置本身可能适得其反。
制度化不信任提供的是宏观制度逻辑,而其在 AI 治理中的操作化,则具体落在“人在回路”这一概念上。事实上,“人在回路”(human-in-the-loop)概念本身经历了一次跨领域的语义迁移。该术语最初源于控制论中的反馈回路(feedback loop):在闭环控制系统中,人在回路意味着操作员可在反馈循环的某一环节介入,修正系统偏差。当这一概念从工程语境迁移到治理语境时,“回路”的所指悄然从工程反馈机制变成了组织监督流程,“人”的角色从操作员变成了监督者。这一语义滑移使“人在回路”显得自明——谁会反对让人参与呢?——但其制度内涵已随语境转换而发生根本变化。
欧盟 AI Act 第 14 条要求高风险 AI 系统的设计必须“使自然人在系统使用期间能够有效监督”(European Parliament and Council 2024)。但有效监督的操作化定义在学术和实践两端都有争议。Green (2022) 对算法监督政策的批评指出,要求人类监督 AI 这一政策本身存在结构性缺陷,因为当 AI 在特定任务上超越人类时,加在它身上的监督可能拉低系统平均决策质量。政策预设了人类介入总是改善结果,而这一预设并不总是成立。
这一悖论有更深的认知根源。Bainbridge (1983) 在西方工程自动化研究中提出过系统越自动化,人类监督者越被边缘化;等到系统需要人类介入时,人类恰因长期被边缘化而无法有效介入(“自动化的反讽”)。Parasuraman and Manzey (2010) 的综述进一步证实,人类在监控自动化系统上的认知限制是结构性的——表现为警觉性下降、注意力分配失当、情境意识丧失——这些限制通过训练也无法消除。当监督对象的认知上限可能超越监督者时(Green 2022),问题不在训练不足,而在认知结构本身的局限。这一问题——尤其是对自身认知盲区的不可达性——将在后文有限自我认知约束中进一步展开;与之并行的另一条线索是,监督者本身已嵌入工作流、无法干净地抽身事外,这一观察者嵌入现象同样将在后文展开。
上述监督者的认知困境在传统 AI 系统中已现端倪,而 Agentic Workflow 的兴起则从根本上重塑了“人监督 AI”的含义。这一范式标志着从决策支持到决策执行的根本转换。传统 AI 系统输出建议,由人类决定是否采纳;Agentic 系统直接改变世界状态——通过调用工具或直接修改并执行源文件,使得发起支付、修改数据库、发送通信、部署代码等行为都可能成为其在尝试达成目标时的中间步骤(ValidMind 2026)。这一转换直接冲击了以事后审计为核心的传统治理模式,因为当操作已经执行、状态已经改变,审计能做的至多是分配损失,而非纠正错误。
行业数据显示这一转换正在加速。IDC 预测 2026 年底 40% 的企业应用将集成任务型 AI Agent(IDC 2025),Gartner 将 2026 年定义为“Agentic AI 规模化落地的关键年份”(Gartner 2026)。但相应的治理框架远未跟上。Liu (2026) 的综述指出,从 AI 系统能力突破到治理制度建立之间存在显著的时间滞后(governance lag),而这一滞后在 AI Agent 领域尤为突出。学术界对 AI Agent 治理的研究刚刚起步,行业紧迫性却在快速攀升,两者之间的落差本身已成为一个治理问题。
3. 理论框架
3. 理论框架
Laux 的制度化不信任框架。 Laux (2024: 2853) 指出,监督者本身存在能力不足、利益冲突、认知偏差甚至被系统俘获等风险,若不把对监督者的不信任内嵌到制度中,“恰当的信任”无从谈起。
Laux 先做了“一度监督”(first-degree oversight)与“二度监督”(second-degree oversight)的区分。标准是监督者对 AI 最终输出是否具有“反事实影响”(counterfactual influence)——换个监督者,输出是否会不同。一度监督者在输出前介入,其判断构成 AI 决策的一部分;二度监督者在输出后介入,功能是矫正。
2×2 分析矩阵沿两个维度展开。第一个维度是能力挑战:监督者是否具备足够的认知、技术和信息来理解 AI 的行为并做出有效判断。第二个维度是激励错位:监督者的个人利益是否与有效监督的目标一致,若不一致会表现为怠惰、俘获或不顺从。例如因节省精力而默认放行(怠惰),因与被监督业务线有利益绑定而选择性失明(俘获),或因组织压力而回避否决(顺从)。两个维度的交叉产生四个区域:有能力且愿意(理想区域)、愿意但能力不足(想做对但做不对)、有能力但激励偏离(能做对但不想做对)、两者皆失(双重失效)。人类监督 AI 的有效性在经验上本就存疑,Laux 的矩阵将这类发现系统化了。
针对失败区域,Laux 借用 Elster (2013) 的防弊政保障框架,从西方代议民主制度中提取六条原则:正当性说明要求监督者提供可检验的理由;定期轮换防止个体被俘获;集体决策以群体判断替代个人判断;机构能力受限通过分权制衡约束单一角色;可诉性与问责赋予受影响者起诉权;透明度要求监督过程公开可审查。这六条原则将在第四节逐一接受压力测试。
Laux 坦承六原则之间存在张力。在实际操作中,定期轮换可能削弱正当性说明(新任者缺乏历史理解),集体决策在小群体中可能极化,过度透明度诱导博弈(被监督对象针对性优化以通过监督)。因此,六原则之间存在需要在地化权衡的设计张力,并不是一张可以照着做的清单。
这一框架的深层意义在于将代议民主制度的防弊政保障逻辑移植到 AI 治理。前述制度化不信任传统的三重族谱假设在此沉淀为 Laux 框架的三个操作前提:设计者外在性对应离散监督节点(监督者可被定位在决策链的某一外部节点上),权力可识别性对应静态制度(制度边界清晰且长期稳定),信任二分经选举委托机制对应公共授权(监督者权威来自民主委托)。这三个前提在公共部门不言自明,却未必在公司内 Agentic 场景下成立;要检验它们,需要一个比西方民主理论更底层的认识论工具。下文用王亚军的“第一人称管理理论”(FPM)作此工具,其与上述前提的对应关系见后文交叉验证方法。
第一人称管理理论的四项基本约束。 FPM 提炼出四项基本约束——观察者与场不可分离、时间不可逆、有限自我认知、迭代更新——来自三条独立路线的收敛(Wang 2026, sec. 5),构成逻辑闭环。FPM 的核心区分是:一号位决策所需的理论,与教授、咨询师、分析师的理论有根本差异——前者置身系统内部、时间不可逆、承担后果,后者置身系统外部、时间可逆、不承担后果。“一号位”是一种处境而非地位:任何在信息不完备条件下做出不可逆决策且承担后果的人,即在一号位上(Wang 2026)。
四项基本约束来自三条独立路线——管理实践、西方社会心理学中勒温的行动研究传统、量子基础的认识论转向——的收敛(Wang 2026, sec. 5),构成逻辑闭环。需要特别说明的是,FPM 之所以能借用物理学结论,并非依靠类比(“组织像量子系统”),而是基于同构(isomorphism)——管理与物理共享“系统内主体无法获得完备知识”这一认识论结构,因此物理学的认识论结论可以形式化地推导出管理含义。以下四项约束中的物理学引用均基于此逻辑。
FPM 之所以作为检验工具,而非动态能力理论、复杂适应系统、高可靠组织或风险治理理论等成熟框架,在于后者均属第三人称设计——分析者置身被分析系统之外、时间可逆、不承担后果。FPM 罕见地从一号位处境出发,与 Laux 框架所预设的第三人称监督位置构成认识论上的对偶,因而能够检验后者盲视的前提。
约束一:观察者与场不可分离。 Spekkens (2007) 证明仅凭“观察者知识不完备”即可重现量子力学大量特征。Frauchiger and Renner (2018) 证明“存在独立于观察者的唯一客观事实”自相矛盾。Frank, Gleiser, and Thompson (2024) 指出现代科学自伽利略以来一直在排除观察主体。任何观察者一旦介入被观察系统,其在场即改变系统行为,外部“客观”视角在结构上不可得。由此推知,公司监督者一旦进入被监督的 Agentic 工作流,即无法从外部获得独立立场——监督本身构成治理的一环。
约束二:时间不可逆。 热力学第二定律确立了时间之箭。认知判断与执行动作之间存在根本不对称——判断可以修正,动作一经施加即不可逆地改变物理或社会状态。例如收购无法泯灭,解雇无法复原,类似的管理决策一旦执行其后果往往无法完全撤销。
约束三:有限自我认知。 哥德尔不完备性定理证明,足够复杂的形式系统内部存在无法被该系统自身证明的真命题(详见 Wang 2026, sec. 5)。决策者身处自身认知框架之内,无法从框架外部识别框架本身的盲区——与哥德尔系统中“自证”的结构性不可能同构。王亚军的比喻是“没有相机或镜子,没人能看到自己的后脑勺。”监督者不知道自己的认知盲区在哪里,因此无法设计覆盖所有失败模式的方案,训练不能消除结构性的认知局限。
约束四:迭代更新。 勒温 (1946) 的行动研究要求走进现场、根据反馈不断修正。(王亚军指出,广泛流传的“解冻——变革——再冻结”三步模型并非勒温本人提出,而是后人拼凑。)治理制度若作为一次性设计固化、不以被治理对象的演化为参照同步调整,便从治理工具退化为合规装饰。公司内制度也应随被治理对象持续迭代。
FPM 与 Zohar 在 20 世纪 90 年代提出的“量子管理”有本质区别。后者是修辞类比,无推导力;FPM 基于同构推导(如前所述),可从“观察者不可分离”推导出“监督者与 AI Agent 共同构成决策”。
四项约束构成一个检验框架——违反任何一项,该理论就不是给一号位用的。判断理论适用边界的责任落在每个一号位身上,没有任何外部权威能代行这一判断。但 FPM 本身也有待审视,它来自管理实践而非治理理论,将其约束移植到 AI 治理领域,这一移植的合理性同样需要追问。以下分析暂时悬置这一追问,先以 FPM 为探针检验 Laux 的适用边界,再在讨论部分回头审视 FPM 自身的局限。
四项约束不是六原则的竞争框架,而是探讨其适用边界的交叉视角——从第一人称的认知处境出发,检验第三人称设计的制度有效性。FPM 从 Laux 框架中识别出四项需要检验的前提。其中,监督者外在性与制度稳定性继承自前述三前提(分别对应离散监督节点与静态制度);纠错可逆性与认知充分性则是 FPM 新浮现出的、Laux 自身未明言的两条假设。而三前提中的公共授权在公司语境下降为背景条件——公司监督者权威来自劳动合同而非民主委托——无需独立检验。四项约束恰好与这四项前提一一对应:观察者嵌入约束对应监督者外在性,即监督者能否置身被监督系统之外;时间不可逆约束对应纠错可逆性,即错误能否在事后被矫正;有限自我认知约束对应认知充分性,即监督者能否理解被监督对象;迭代更新约束对应制度稳定性,即制度能否在治理周期内保持有效。因此,第四节检验的并非六原则本身是否正确,而是其隐含前提在企业 Agentic 治理中的成立条件——若某项前提在该场景下受到系统性挑战,对应原则的适用边界即需重新评估。
为何采用交叉验证而非直接批判?如前述 Agentic Workflow 治理挑战中提到的治理滞后(Liu 2026)在 Agentic Workflow 领域尤为突出。制度供给不足的窗口期内,提出新规范性框架的边际贡献有限。本文因此不提出新框架,而是提出跨学科交叉验证的检验方法,用四项约束作为认识论探针,探测六原则的失效边界。该方法属于合成创新,与鲁棒性分析(Weisberg 2006)、三角验证(Denzin 1970)、哥德尔式边界检验(本文方法)共享部分谱系特征,但方向相反。
评估标准有两层:以真实案例为证,使约束挑战不囿于抽象;从案例中推导具体技术环节的修正建议,含操作分级阈值、人员配置参数、复审周期等可操作指标。但需要坦承,这一方法的启发性同时也意味着其结论的确定性有限——案例的代表性、约束的完备性、以及跨领域类比的效力,都是尚需进一步检验的假设。
4. 交叉验证分析
4. 交叉验证分析
约束一:观察者嵌入——一度与二度分界的本体论问题。 观察者嵌入约束检验的是监督者外在性假设,即监督者能否置身被监督系统之外。此假设一旦动摇,Laux 的集体决策与机构能力受限原则——两者均预设监督者可被定位在决策链外部节点——即失去着力点。Laux 的一度、二度区分正是这一假设的具体形态:它假设监督者可以被定位在 AI 决策链的某一点上,位置决定功能;而观察者嵌入约束恰好否定了它。如前述 FPM 四项约束所示,Frauchiger and Renner (2018) 与 Spekkens (2007) 的研究均表明观察者在场即改变被观察系统行为,这是结构性的物理约束。由此推知,一度与二度监督的分界不是客观、稳定的属性,而是随监督者与 AI Agent 交互历史而动态变化的关系属性。
这一约束在 Agentic Workflow 场景下有具体表现。一个典型的基于“检索增强生成”(RAG)的 Agentic Workflow 中,人在回路的嵌入点至少有四个:规划阶段的审批、检索结果的筛选、工具调用的确认、最终输出的签署。每个嵌入点都“扰动”了 AI Agent 的下一步。例如,人类在检索阶段筛选掉某条结果,AI Agent 后续规划基于不同上下文重新生成;人类在工具调用阶段拒绝一次操作,AI Agent 的自我反思重新评估策略。人在回路不是加在人身上的权限,而是人和 AI Agent 共同构成决策的耦合。
Air Canada 案(Moffatt v. Air Canada, 2024 BCCRT 149)从负向印证了观察者嵌入约束。Air Canada 的 chatbot 向乘客 Moffatt 错误承诺了丧亲折扣政策,公司辩称 chatbot 是独立的法律实体、公司不应为其输出负责。不列颠哥伦比亚民事仲裁庭驳回此说,裁定“Air Canada 的 chatbot 就是 Air Canada 本身。”通过向前追溯,chatbot 的回答风格由管理团队设计或批准的训练数据和 prompt(提示词)模板决定,所以监督者与被监督对象是“共同构成”关系,而非“外部审计”关系。一旦将 AI 系统视为独立实体,观察者嵌入的治理责任链即被切断。
参与式治理并非纯粹的理论构想。Wang (2026) 引述的英伟达 CEO 黄仁勋的管理实践,为“监督者置身系统之内参与塑造”提供了正向印证。据 Kim (2024) 记录,黄仁勋废除传统状况报告,改为每天随机阅读约 100 份员工 Top 5 清单;拒绝周期性规划,代之以持续不断的计划;以“未来成功早期指标”(EIOFS, Early Indicators of Future Success)替代预先财务评估,将不完备知识和持续变化的现实作为给定条件(Wang 2026, sec. 6.4)。监督者应置身系统之内参与塑造,而非站在系统之外审计——这正是观察者嵌入约束的管理含义。然而,参与式治理本身蕴含一个构成性悖论,监督者越深入参与 AI Agent 的行为塑造,其独立性越弱;但若保持距离以维护独立性,又无法及时察觉风险。此处需要悬置的不是参与或独立本身,而是两者可以清晰分离这一隐含前提。量子力学中的测量问题已表明,观察者介入即改变被观察系统;组织研究中也有类似发现——审计者与被审计者的长期共处必然产生认知同化。参与与独立的张力不是可以通过制度设计消除的技术问题,而是内在于任何监督关系的构成性条件。所能做的,不过是在不同场景中辨认这一张力的具体形态,并据此校准介入的深度与距离。
上述分析引出以下修正思路。其一,人在回路可以考虑设计为参与决策的风格塑造,避免为了应付审计而做“人肉盖章器”。Agentic Workflow 的关键设计选择——覆盖流程的触发条件、切断开关的位置、可逆性窗口的时长——宜由 AI 治理委员会拥有共同决定权。覆盖流程宜按影响分级(完整分级方案见下文约束二)。监督者宜在 AI Agent 的关键 prompt 模板、阈值参数、工具调用白名单被设置时拥有共同决定权——避免在“事后解释为什么出了问题”浪费时间,而是事前参与约束 AI Agent 的行为风格。其二,监督者异质性的具体配置。一个 3 人异质团队(例如财务、IT 和法务)在同一 Agentic Workflow 上同时具备人在回路权限,比 5 人同质团队更有效。异质性的关键在于认知多样性(Page 2007),例如当 AI Agent 产生涉及支付异常的操作时,财务视角看到账目不平,IT 视角看到 API 调用模式异常,法务视角看到合规风险,三者结合形成更完整的否决判断。可以构建类似“一人否决即可阻止,24 小时强制复审”的机制。这一配置将 Laux 的机构能力受限原则从公共部门的分权制衡翻译为公司内的认知分权——把判断拆给不同专业视角,避免单一专业背景的监督者成为单一故障点。
约束二:时间不可逆。 监督者外在性既受挑战,紧接着的问题是:出错之后还能否矫正。时间不可逆约束检验的是纠错可逆性假设,即监督出错能否在事后被撤销或矫正。这一假设同时支撑着 Laux 的定期轮换原则与可诉性及问责原则:前者预设“换人可重置监督位置”——换一个人,之前的判断即被软撤销;后者预设事后矫正可能——受影响者可通过申诉追究。这两项预设在公共部门大致成立,因为审查意见可以撤回,裁决也可以被推翻。但 Agentic Workflow 的输出是“动作”。例如支付 AI Agent 执行了一笔跨境大额付款,一旦到账,“撤销”涉及银行回滚、合规审查、对手方信任重建,成本往往超过原付款金额。AI Agent 的中间推理状态往往不作为(或不能获得以作为)审计轨迹保留(Park et al. 2024),事后连“为什么这样做”都无从查证。时间之箭在此不可逆。
PocketOS 删库事件(2026-04-25)是时间不可逆约束的极端实例。PocketOS 为全美汽车租赁企业提供 SaaS 管理系统,创始人 Jeremy Crane 用 Cursor(搭载 Claude Opus 4.6)处理运维任务。AI Agent 遇到凭证错误后,没有询问、申请权限或暂停,自主找到系统中的 Railway CLI token,通过 GraphQL API 发出 volumeDelete 命令,9 秒内清空生产数据库及所有备份。最近可用备份是三个月前的,期间所有客户数据全部消失(FreeBuf 2026)。关键在于人在回路节点根本不存在——AI Agent 没给监督者否决窗口,Laux 的定期轮换在此毫无意义。
Air Canada 案与 PocketOS 案构成对比。在前者案例中,AI 幻觉可事后追责,因为有仲裁庭判赔偿,事后追责成功。但在后者中,AI 误操作无法事后追责,数据库已消失,事后追责失效。当 AI Agent 操作涉及不可逆物理状态变更时,Laux 的可诉性与问责从“纠正正义”退化为“分配损失”,治理功能被消解。
其一,操作分级门槛,同时执行阻塞而非审计日志。对 AI Agent 操作按影响分级可设门槛方案,例如只读操作免门槛、内部写操作宜单人确认、外部写操作(支付、外部通信、生产数据库变更)宜双人确认并设置 5 分钟 hold 窗口、不可逆操作(删除无备份数据、大额跨境支付)则宜双人确认、冷却期加沙箱预演。门槛宜为显式阻塞,AI Agent 发起高影响调用时被拦截,生成确认请求(可以含操作类型、目标、预估影响和可逆性评估),推送监督者等待明确批准后才放行。审计日志是事后工具,对不可逆操作无济于事;执行阻塞在状态变更之前截停。门槛宜绑定语义操作而非具体工具,因为 AI Agent 被某一工具的权限拦截后,仍可自行切换至命令行脚本或文件 API 等语义等价替代路径。权限系统宜维护工具等价类映射(内置编辑器、命令行写入和文件 API 属于同一等价类),跨整个等价类统一施控;被阻止后的唯一合法降级出口是上报人类监督者。阻塞越严,安全性越高,AI Agent 的自主性与效率也越低——过度阻塞会使 Agentic Workflow 退化为传统审批流程,消解引入 AI Agent 的初衷。问题不在于如何在阻塞与自主之间找到某个最优比例,而在于这两者本就无法分别优化:所有委托关系都涉及控制与自主的交换,委托人让渡一部分自主以换取受托人的能力,又保留一定控制权以约束风险。AI Agent 的特殊之处是它能发现人类委托人未曾预见的行动路径,包括绕过控制的路径,使这场交换不再是可一次性设定的契约,而是一场持续演化的博弈。门槛式阻塞的意义因此不在于一劳永逸地消除风险,而在于迫使这场博弈在每一步都留下可观测的痕迹。
其二,可逆性设计作为治理基础设施。事务回滚机制、延迟队列(操作进入 hold(保留)状态,hold 期间可撤回)、断路器(异常模式触发自动暂停)、人工推翻开关等可逆性设计不宜仅作为可选的便利功能,而宜与权限管理和审计日志并列的治理基础设施。追责的目标对于公司而言或在于如何降低不可逆成本,而非事后追究责任。如果监督者的“关键绩效指标”(KPI)是“发现并惩罚了多少错误”,公司在不可逆操作面前的防御能力就等于零,因为被惩罚的错误已经造成不可逆损害。
约束三:有限自我认知。 矫正之难既已显现,问题便前移到更根本的一环:监督者凭什么确信自己看到了所有该矫正的失败模式。有限自我认知约束检验的是认知充分性假设,即监督者的认知是否足以理解被监督对象,由此对 Laux 正当性说明与透明度原则构成直接挑战。Laux (2024) 主张监督者必须能“用实验验证人在回路的有效性”(正当性说明),且监督过程须公开可审查(透明度);但两者均隐含假设监督者知道自己在测什么、知道如何设计实验、知道如何解读结果。Green (2022) 的实证综述表明,“人类能否有效监督 AI”在经验上是开放的。如前述 FPM 约束三中的哥德尔不完备性结论在组织层面同样成立(Wang 2026, sec. 5)。
Klarna 案(2024—2025)展示了有限自我认知的企业表现。Klarna 在 2024 年高调用 AI 替代约 700 名客服,2025 年投诉率激增后被迫重新雇佣人类员工作为“AI 监督者”。但这些监督者全部客服背景,没有大语言模型训练,操作手册之外的失败模式全部漏过(The Financial Times 2025)。专业错配在此表现为客服经理对客服质量判断力尚可,但对“LLM 失败模式”识别能力几乎为零。
CurXecute 漏洞(CVE-2025-54135, CVSS 8.6, 2025-08)从安全层面展示了更深层后果。攻击者通过第三方 MCP(Model Context Protocol,模型上下文协议)服务器注入恶意 prompt,篡改 Cursor 配置并添加攻击者控制的服务器条目;Cursor 对新增条目采取“自动运行模式”(Auto mode)——即使用户在“用户界面”(UI)中拒绝建议的编辑,命令仍实时触发执行(Aim Security 2025)。攻击链极短。开发者让 AI“总结 Slack 消息”,恶意载荷即随 MCP 调用加载。与 PocketOS 案对比,PocketOS 是 AI Agent 主动越权执行;CurXecute 是攻击者通过 AI Agent 篡改了监督基础设施本身——监督者的“后脑勺”不仅自己看不到,连“镜子”都是假的。
这一逃逸模式并非仅来自外部攻击。本文作者在收集 Agentic Workflow 治理案例的过程中,观察到某 AI 编程 Agent 的实际行为,该 AI Agent 连续三次被内置编辑工具的权限规则拦截后,随即自行改用命令行脚本调用底层文件 API 读取并替换目标文件内容,绕过了工具层面的权限门槛。该行为与 CurXecute 漏洞的机制同构——两者都通过底层执行路径绕过 UI 层面的确认节点——但区别在于:CurXecute 是外部攻击者利用漏洞,本例是 AI Agent 在正常操作中自主发现并选择逃逸路径。工具级权限控制无法阻止语义等价的替代路径(命令行脚本、文件 API)。监督者以为设了门槛,AI Agent 却从门槛下钻了过去。观察者置身于被观察的 Agentic 系统之内,其第一人称经历本身就构成了分析素材,也正是观察者嵌入约束的直接印证。
有限自我认知并不只有反面。OpenAI 在发布 GPT-4o 时邀请 100 多名外部红队参与评估,过程中发现模型的谄媚倾向,表现为模型会验证用户疑虑、煽动愤怒、怂恿冲动行为。OpenAI 发现后约 24 小时内回滚了更新(OpenAI 2025)。微软也在 2026 年初于以色列研发中心组建专门的 AI 红队,每天监测约 100 万条安全信号(微软 2026)。认知盲区虽无法消除,但通过有组织的对抗性测试可在一定程度上弥补。
其一,设立 AI 红队。红队宜与业务部门平行,核心 KPI 是发现 AI 失败模式。多样化人员背景有利于完成该任务,例如“机器学习”(ML)安全工程师(识别 prompt 注入、对抗性输入)、领域专家(识别行业特定逻辑错误)、prompt 工程师(识别推理漂移、幻觉)。其预算宜独立于被监督业务线。
其二,建立“事前预防、事中拦截和事后学习”的三层链路。(一)事前,AI Agent 上线前宜通过红队对抗性测试,测试用例库定期从行业漏洞数据库更新。(二)事中,自动监控 AI Agent 输出统计分布,标记偏离历史基线的异常行为。(三)事后,每一个被否决或纠正的 AI 决策记录为结构化样本(操作类型、AI 原始输出、人类修正、修正理由),用于下一轮微调或 prompt 调整。事前减少已知风险漏过率,事中应对运行时突发异常,事后将每次纠正转化为系统能力的永久提升。
约束四:迭代更新。 认知盲区既无法根除、只能由对抗性机制部分弥补,最后一层前提便落在制度自身能否跟上被监督对象的演化。迭代更新约束检验的是制度稳定性假设,即制度一旦设定能否在整个治理周期内保持有效。Laux (2024) 的六原则作为整体是一次成型的静态设计选择,一旦做出便期望在制度整个生命周期内有效;但此假设一旦动摇,六原则整体即与被治理对象的演化速率失配。从时间维度审视,这一期望正受到挑战。但 AI 治理的特殊性在于被治理对象的演化速度远快于治理制度。即使是同一个大语言模型部署半年后,其行为可能因“模型运行框架”(Harness)迭代、可检索语料更新、工具 API 变化而显著不同。勒温 (Lewin 1946) 的行动研究传统为这一约束提供了方法论锚点——治理不应是一次性设计,而应是螺旋上升式迭代。每一次否决、纠正、推翻都是学习样本,构成制度自我更新的驱动力。
Manus AI(Monica.im, 2025-03)的幻觉累加问题是一个典型相关案例。AI Agent 本质上是多次大模型问答的串并联。若单次问答准确率为 90%,串联 10 次后整体准确率为 0.9 的 10 次方,约等于 34.9%,或者说三分之二的多步任务会在至少一个环节出错。Manus 在财务分析任务中将数据硬编码到代码中,部分经验证为错误;金融建模使用过时参数,与实时市场偏差超过 15%(搜狐科技 2025-03-15)。幻觉累加不是 Manus 的特有缺陷,而是所有串联多步推理 AI Agent 的结构性特征。更深层的问题在于时间错配。监督制度的更新周期以季度甚至年度计时,AI Agent 的行为分布却已随基础模型更新漂移了若干版本。这样就可能出现制度更新到达时,治理对象又额外演化半个周期。然而,加速制度更新并非没有风险:规则变更过频会削弱制度权威性,监督者来不及理解新规则,迭代便沦为混乱。但稳定性与迭代能否最终调和,本身就是一个无法先验回答的问题——制度稳定性从来不是给定的,而是以治理对象的变化速率低于制度响应速率为隐含条件;当被治理对象的演化周期短于制度的更新周期,稳定性非但不能为治理提供支点,反而转化为盲区。在 AI 治理条件下,迭代与稳定的张力因此不再是制度设计可以一劳永逸化解的主题,而成为治理本身必须持续回应的问题。
迭代更新也有正面实践。NIST 在 2024 年 2 月发布的网络安全框架 2.0 中新增了“治理”(Govern)核心功能,是对快速演化的威胁模型的制度响应(NIST 2024)。这一实践表明,“制度随对象迭代”在资源充足且有明确触发机制的情况下是可以实现的。
其一,复审周期的分级设计加制度实验化。月度复审审查人在回路节点是否仍合理——AI Agent 能力边界可能在一个月内显著漂移。季度全面审计评估整体治理框架有效性。底层模型、AI Agent 框架或 API 发生重大版本升级时,宜尽快完成监督策略适用性评估。制度本身宜被视为实验对象,影子模式(新配置在影子环境下运行,与现有配置输出对比)、金丝雀发布(新策略先在 5% 用户上试运行)、离线回放(用历史日志回放测试新配置)均为可参考的工具。核心思路是将治理制度从静态规则集转变为动态实验平台。
其二,监督日志即训练数据的反馈闭环。每一个被否决或纠正的 AI 决策,自动生成结构化标注(字段见上文约束三),进入行为知识库,用于微调或 prompt 调整。更新后的模型触发新一轮复审,将人类监督行为转化为 AI 系统的训练信号。每一次否决教 AI 什么不该做,每一次纠正教 AI 正确做法,由此形成“由人监督,由 AI 学习”的正向闭环——监督者的认知投入不随事件结束而消散,而沉淀为系统能力的半永久性提升。
5. 讨论
5. 讨论
统观第 4 节的四项检验,监督者外在性、纠错可逆性、认知充分性、制度稳定性并非各自孤立地失效,而是被 Agentic Workflow 的四个结构性特征同时瓦解——监督者嵌入工作流、操作一经执行即不可逆、AI 的行为空间超出监督者认知、被治理对象持续演化。Laux 六原则的真正困境不在于某一条原则写错了,而在于它们共同预设了一种第三人称、静态、可逆、可理解的监督关系,而这一关系在公司内 Agentic 场景下整体不再成立。这留下一个八条建议无法轻松化解的张力:若四项前提同时崩塌,对六原则的逐条修补是否还能守住制度化不信任的初衷,抑或需要一种不再依赖这些前提的全新监督想象?
在汇总修正建议之前,需要先标明 FPM 自身的适用边界。四约束来自管理实践、社会心理学和量子基础三条路线的收敛,而非演绎证明。其跨域迁移至组织治理的经验有效性——尤其是 Frauchiger-Renner 定理和哥德尔定理的组织学映射——尚需领域专家独立审视。因此,以下修正建议应被理解为在一个已声明边界的视角下所看到的图景,而非客观审计结论。
基于这一已声明边界的视角,以下汇总压力测试生成的修正建议、阐明贡献,并标记遗留的研究方向。
压力测试的四项检验共生成八条修正建议,汇总如表 1。建议一、二回应约束一对监督者外在性的检验(修正 Laux 的集体决策与机构能力受限原则),三、四回应约束二对纠错可逆性的检验(修正定期轮换与可诉性及问责原则),五、六回应约束三对认知充分性的检验(修正正当性说明与透明度原则),七、八回应约束四对制度稳定性的检验(修正六原则作为整体的静态设计前提)。
表 1 八条修正建议汇总
需要强调,上述八条建议是案例式、启发式的探索,不构成统一适用的规范指引。各企业的技术栈、组织规模和风险偏好差异极大,具体参数——如 5 分钟 hold 窗口、3 人异质团队、月度复审周期——均为启发式参考而非确定性规定,须在自身实践中校验。
在上述启发式建议之外,本文还有以下贡献。第一,跨学科交叉验证方法。本文以 FPM 四约束作为认识论探针,检验 Laux 六原则的适用边界。据本文所知,将 FPM 约束用于检验 AI 治理框架尚无直接先例。
第二,具体技术环节的修正建议。八条建议各落地到一组可操作的参数,覆盖治理全链路的五个环节。流程端可参考覆盖流程三级分类与异质团队构成与否决机制。操作端可参考操作分级四级划分与可逆性设计四项组件。监控端可参考红队人员与上报阈值。运行端可参考三层链路功能与复审周期三档窗口。反馈端则依赖结构化标注字段的沉淀。
第三,正负案例对称引入。本文除 Air Canada、PocketOS 等反面案例外,补充了 OpenAI 外部红队评估(OpenAI 2025)、微软 AI 红队(微软 2026)、英伟达参与式管理实践(Wang 2026; Kim 2024)、NIST 框架 2.0 治理功能(NIST 2024)等正面实践,避免了选择性偏差。此外,本文作者在收集案例过程中直接观察到 AI Agent 的权限逃逸行为,这一第一人称案例为观察者嵌入约束提供了直接印证。
本节开头已标明 FPM 的基本边界,以下进一步展开具体层面。
第一,如前所述,FPM 的跨学科同构论证尚待检验,本文将交叉验证定位为启发性视角而非经验定律。这一定位的代价是结论的预测力有限——四约束可以标记“何处可能失效”,但无法预判“以多快速度失效”或“失效的具体形态”。
第二,Agentic Workflow 是 2025 年才大规模进入企业部署的范式。本文判断来自理论逻辑分析与早期案例观察,非大样本实证。PocketOS、CurXecute 等案例虽具启发性,样本量不足以支撑统计意义上的普适性结论,后续研究应基于更大样本进行实证检验。
第三,本文未深入讨论跨境合规冲突与多 AI Agent 协同的责任归属。前者涉及欧盟 AI Act(European Parliament 2024)与美国各州立法的管辖冲突,后者涉及多 AI Agent 串联执行复杂任务时的责任分配。两者各自足以支撑独立研究,本文仅标记其重要性,留待后续工作。
第四,本文引用的制度理论传统——制度化不信任(西方民主理论)、自动化认知偏差(西方工程心理学)、行动研究(西方社会心理学)——均产生于西方学术语境。跨文化应用中,不信任制度化的伦理正当性、监督者的权利义务关系、以及透明度的文化含义可能存在根本差异。本文不做跨文化比较,但标记这一局限以供后续研究。
第五,文章自身的分析立场面临一个自反性问题——文章以第三人称视角分析第一人称处境,这一认识论跳跃无法完全弥合。FPM 作为分析工具的合理性,最终需要在实践中而非仅在论文中接受检验。
6. 结论
6. 结论
Laux (2024) 的六条原则在公共部门具有扎实的西方民主理论基础,但其有效运行依赖一组未明言前提:监督者须有民主授权、制度须相对稳定、监督者须能置身被监督系统之外。这三项前提在公司内 Agentic Workflow 场景下同时松动——监督者已嵌入工作流、操作一经执行即不可逆、AI 的行为空间超出监督者认知、被治理对象持续演化。本文以第一人称管理理论的四项约束逐一检验这些前提,发现它们整体不再成立。
观察者嵌入约束表明,一度与二度监督的分界随监督者与 AI Agent 交互历史动态变化(Frauchiger and Renner 2018),AI Agent 持续学习时该分界的本体论基础即告失效。时间不可逆约束揭示,事后矫正对不可逆操作无能为力——PocketOS 删库案中数据库已物理消失,事后追责从纠正正义退化为分配损失,门槛式前置监督因此必要。有限自我认知约束表明,监督者训练覆盖不了未知失败模式,CurXecute 漏洞(CVE-2025-54135)更表明连监督基础设施本身都可被武器化。迭代更新约束则表明,制度稳定性在动态系统中难以长期维持,Manus 幻觉累加(0.9 的 10 次方约等于 34.9%)表明多步串联放大缺陷的速度超出制度更新周期。
即使交叉验证发现六原则效果不佳,也不能因此断言 FPM 更可靠。FPM 四约束来自三条独立路线的收敛,三角定位增加可信度,但物理系统的认识论结论移植到组织管理的经验有效性仍需独立验证。FPM 自身存在两种常见的失败模式。边缘化指一号位视角被组织排斥(Wang 2026, sec. 6.1),中性化则指被吸收进现有第三人称框架而丧失批判力(Wang 2026, sec. 6.1)。超大规模组织中一号位信息不完备程度可能高到四约束全部失效;去中心化场景中承担后果的主体模糊化。FPM 也是有适用范围的理论,不是万能框架。
后续研究或可在三个方向推进。(一)更多 Agentic Workflow 企业部署公开案例及治理分析,积累实证基础。(二)FPM 四约束在管理实践中的可操作性验证,从认识论命题到管理工具需操作化定义与实地检验。(三)公司内人在回路制度的失败模式数据库。
最后需要回到本文的出发点。Laux 的制度化不信任框架所回应的问题——如何在不预设善意的前提下设计监督制度——并未因本文的分析而消解。恰恰相反,当被监督对象从人变为 AI Agent,当监督场景从公共部门移入公司内部,这一问题变得更为紧迫。本文所做的不过是揭示,对该问题的回答比对 AI Act Art.14 的表面解读更为复杂。制度化的不信任在 AI 时代仍然必要,但其制度形态或许需要被重新想象——不是作为一套可以一次性设定的静态规则,而是作为一种持续的、内嵌于实践的追问。这一追问没有终点,因为被治理对象和治理者自身都在不断变化。所能做的,不过是在每一个具体的决策处境中,校准信任与不信任的刻度。
参考文献
参考文献可上下滑动查看
复杂系统管理学读书会第四季
集智俱乐部「复杂系统管理学读书会第四季」邀请清华大学教授、西南财经大学社会发展研究院客座教授罗家德,电子科技大学计算机科学与工程学院教授周涛,复旦大学计算与智能创新学院教授陈阳,暨南大学新闻与传播学院副教授赵甜芳,以及产业复杂科学推动者、北大纵横合伙人陈雁鸿共同发起。
第四季复杂系统管理学读书会立足于“AI驱动的复杂组织系统管理”这一主题,旨在突破单一视角的局限,从管理哲学与前沿技术的双重视角,探寻人工智能时代组织进化的未来路径。从 2026 年 6 月 13 日开始,每周六下午 14:30-16:30,预计持续 8~10 周。期待与各位同仁共同学习复杂系统管理领域的前沿理论、共同探讨复杂科学理论在 AI 组织管理场景的实践与展望,一起应对百年未有之大变局下的组织发展未来。
复杂系统管理学读书会第四季
集智俱乐部「复杂系统管理学读书会第四季」邀请清华大学教授、西南财经大学社会发展研究院客座教授罗家德,电子科技大学计算机科学与工程学院教授周涛,复旦大学计算与智能创新学院教授陈阳,暨南大学新闻与传播学院副教授赵甜芳,以及产业复杂科学推动者、北大纵横合伙人陈雁鸿共同发起。
第四季复杂系统管理学读书会立足于“AI驱动的复杂组织系统管理”这一主题,旨在突破单一视角的局限,从管理哲学与前沿技术的双重视角,探寻人工智能时代组织进化的未来路径。从 2026 年 6 月 13 日开始,每周六下午 14:30-16:30,预计持续 8~10 周。期待与各位同仁共同学习复杂系统管理领域的前沿理论、共同探讨复杂科学理论在 AI 组织管理场景的实践与展望,一起应对百年未有之大变局下的组织发展未来。

