上述参考资料,请扫描下面的二维码加入圈子后下载。
研究一:跨域杀伤网行动方案生成
在未来高度复杂的作战环境中,指挥官面对的不再是单一军种、单域作战的传统战场,而是由陆、海、空、天、网五大作战领域中的各种军事资产组成的军事物联网物体系。
基于这个军事物联网物体系,构成了由作战能力市场中的提供者、消费者和跨域虚拟联络官组成的联合全域的消费战场。
在这种背景下,如何在秒级时间内连接不同作战领域的资产,快速生成、评估并推荐最优的跨域行动方案,成为未来指控系统的核心挑战之一。
传统指控系统依赖人工规划或基于规则的自动化流程,往往需要数小时甚至数天才能完成。
1.1 这个研究要解决的问题是什么?
该研究的目标是解决跨域杀伤网中高维、实时行动方案生成的计算爆炸问题。
在现代联合作战中,一个作战请求(如摧毁时敏目标)可能涉及陆、海、空、天、网、电等多个域的数十种平台、武器和路径组合,导致候选行动方案数量呈指数级增长。
传统优化方法需对几乎所有方案进行高成本仿真评估,无法在秒级内完成,难以满足指挥官对实时性的要求。
1.2 这个问题的解决方案是什么?
这一解决方案在保持解质量(达理论最优90%以上)的同时,将计算时间减少约90%,实现了接近最优、多样化、人因兼容的实时决策支持。
系统采用基于分布式多智能体的微服务架构实现跨域指控,其核心围绕消费者 Agent、跨域虚拟联络官 Agent、供应者 Agent 三者展开。
请求发起与解析阶段:战斗管理者(作为军事物联网的消费者)通过消费者 Agent 提交效果请求,明确目标(如压制、干扰、摧毁)及任务类型(救援、防御、进攻等)。请求信息包括优先级、时间约束、期望效果等参数,构成 F2T2EA 杀伤链的输入。
方案生成与预筛选阶段:消费者 Agent 将效果请求转发给跨域虚拟联络官 Agent。后者接收请求后,首先从预案库(Playbook)中调用分层任务网络(HTN)模板,实例化潜在的行动方案(CoA)。每 个CoA 描述跨域资源组合的具体任务流程(如无人机抵近→传感器成像→数据传输→目标识别)。在此阶段,系统通过推荐系统元启发式算法对参数组合进行快速预排序,仅选择最有希望的 Top-K 候选行动方案进入详细计算,从而将高维的 NP-hard 问题的行动方案搜索空间降低约90%。
详细评估与排序阶段:对筛选后的候选 CoA 进行深度计算,通过多实体贝叶斯网络(MEBN)和实时仿真算法验证前提条件(如燃油量、弹药可用性、通信链路),并量化关键指标:目标达成概率(成功交战可能性)、蓝军风险(己方损耗概率)、机会成本(后备容量影响)、及时性(时间约束满足度)、附带损害(平民影响)及软约束。
推荐系统在此阶段综合四项度量指标,对候选行动方案进行最终排序和加权(见本文1.5部分):基于用户偏好模型的加权评分、基于帕累托前沿的最优性评估、基于汉明/欧氏距离的方案多样性,以及基于历史数据与仿真结果的反馈预测。
协商与决策阶段:跨域虚拟联络官 Agent 向供应者 Agent 发送投标请求,获取跨域资源(卫星、舰艇、无人机、网络资产)的实时可用性确认信息。经协商细化后,系统向指挥官呈现排序后的CoA列表,附带可视化权衡分析(如牺牲部分及时性换取风险降低)。指挥官选择最终方案后,系统自动下发执行指令,并持续监控任务状态,将实战结果回流至推荐系统训练集,形成决策闭环。
整个流程在数秒内完成,支持动态应对突发威胁,实现从传统杀伤链向自适应跨域杀伤网的转型。
1.3 输入与特征构建
系统首先接收一个具体的作战请求(如摧毁某时敏目标),并融合以下多源上下文信息:
-
任务特征:目标类型、地理位置、时间窗、优先级等; -
资源状态:各作战域(陆、海、空、天、网、电)可用平台、武器、传感器的实时状态; -
用户偏好:指挥官设定的显式规则(如“避免使用高价值资产”)及历史选择行为(隐式偏好)。
输入数据包括如下内容,这些数据构成了输入向量:
|
|
|
|
|---|---|---|
| 每个行动方案详情
|
每个行动方案请求者的原始意图
|
|
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
| 每个行动方案的详情
|
|
|
|
|
||
|
|
||
|
|
||
|
|
||
| 人类反馈
|
行动方案的隐性数据 |
|
| 行动方案的显性数据 |
|
|
| 自动化系统反馈
|
代表性场景仿真结果 |
|
| 真实世界场景结果 |
|
1.4 候选行动方案生成与初步筛选
系统不会穷举所有可能的行动方案,对每个行动方案进行评估。这样做计算工作量太大。
更好的做法是利用预训练的推荐系统算法模型(如神经协同过滤或深度排序网络),先筛选出少量的候选行动方案。
然后对高分推荐的 Top-K 个候选行动方案进行完整的实例化(即生成具体任务序列、资源分配、时序逻辑等),大幅压缩后续高成本深度评估的规模。
1.5 候选行动方案的多维度综合评估与重排序
因此,在前期智能筛选出少量候选行动方案后,需综合考虑以下四个关键因素:
-
最优性:采用帕累托网格方法评估行动方案在多目标空间中的近优程度,确保不偏离理论上的多目标最优解太远(如保持90%以上得分)。 -
多样性:推荐的行动方案集需包含战术上差异显著的多个选项(如不同打击路径、主要作战领域或平台组合)。多样性可增强指挥官应对突发变化(如资产被毁)的灵活性和杀伤网的鲁棒性。 -
用户反馈:根据用户反馈学习指挥官的历史选择行为(隐式偏好),确保推荐符合其决策习惯和信任模式。即使某行动方案客观性能略低,若更贴近用户反馈,也可能更具实战价值。 -
显式偏好:尊重指挥官在当前任务中设定的偏好(如“最小化附带损伤”“优先使用无人系统”),使行动方案不仅可行,而且满足指挥官的个人偏好。
这一机制确保推荐的行动方案既接近理论最优,又多样、符合指挥官偏好,实现人机协同下的高质量快速决策。
系统允许指挥官为四个关键指标分配权重:时效性、风险、目标达成、机会成本。例如,救援任务中指挥官可能将时效性权重设为 0.4,风险设为 0.3;而打击任务则可能反过来。

系统将排名靠前(如前10个)的行动方案按综合得分排序,呈现给指挥官,并附关键指标说明。指挥官可选择、修改或拒绝方案,其反馈又用于在线更新推荐模型,形成闭环学习。
1.6 基于遗传算法的全局参数优化机制
行动方案综合得分在加权求和时,要有四个维度指标的权重设置;同时各个维度指标,也各自都有相应的超参数。
这些参数的设置,对候选行动方案最终的量化得分得分会有很大影响。
这四个指标的目标可能存在冲突。例如,最优性指标权重设置过高会牺牲多样性;用户偏好权重过高会忽略从历史行动方案中学到的宝贵经验。
那么如何设置这些参数呢?
解决方案是引入一个全局优化层。为每个维度的指标分配一个全局权重,并通过遗传算法来自动寻找这些权重以及各指标内部的超参数(如最优性指标中帕累托网格的步长、多样性指标中定性/定量距离的权重等)的最优组合。
那么,遗传算法中进化的适应度函数的计算标准是什么呢?研究团队设计了一个巧妙的逆序分作为优化目标。即遗传算法的最优化目标是最大化逆序分——推荐的Top-K行动方案列表与各维度的理想排序的一致性。
逆序分的核心思想是:对于任何一个评估指标(比如最优性),我们都可以对所有候选方案按该指标单独排序,得到一个理想顺序。然后,我们将推荐系统给出的Top-K列表与这个理想顺序进行比较,计算其中有多少对方案的相对顺序是颠倒的(即逆序数)。逆序数越少,说明推荐列表在该指标上的排序质量越高,其逆序分也就越高。
遗传算法的进化目标就是最大化所有四个指标的加权逆序分之和。通过这种方式,系统能够在无需人工干预的情况下,自动找到一个在最优性、多样性、反馈和偏好之间取得最佳平衡的参数配置。
研究二、行动方案生成过程的人机编队
2.1 问题陈述
研究一介绍了如何用 AI 算法来生成、评估跨域杀伤网的行动方案。
那为什么要用 AI 呢?
这是因为考虑到跨域杀伤网的复杂性和时间要求,行动方案(COA)的生成、评估过程中的部分工作必须由 AI 来完成。
但是跨域杀伤网行动方案以及其他军事或商业领域的行动方案,其执行都会带来高后果。因此,AI 生成的行动方案,必须置于有意义的人类控制(MHC1)和有意义的人类指挥(MHC2)之下。
也就是说,行动方案的生成、评估和调整,必须是人类和 AI 组成的团队的联合活动。
2.2 人机编队协作的三种基本形态
在生成、评估和调整行动方案时,具体的任务(task)可以分为如下三类:
AI 独立完成的计算密集型任务
人机紧密协同的决策任务
人类独立进行的的高影响决策任务
2.2.1 AI 独立完成的任务:计算密集型与重复性工作
这类任务完全交给 AI,不仅提高效率,更释放了人类认知资源,使其能够专注于更高层次的决策。
2.2.2 人机联合任务:认知对齐与决策支持
第二类任务是人机联合执行的任务。例如,AI 向人类建议行动方案(COA),而人类同时根据自身的经验,进行选择和调整。
这种场景下,AI的角色是决策支持——通过验证或挑战人类的预期来辅助决策。
AI 不是要替代人类的判断,而是通过提供不同的视角来扩展人类的认知边界。
当 AI 的建议与人类预期一致时,它提供了确认;当 AI 提出意外方案时,它创造了认知惊喜,促使人类重新评估假设。
这种动态交互使得行动方案的决策质量,超越了人类或 AI 单一主体的能力。
2.2.3 人类专属任务:高风险决策的最终权威
第三类任务是人类专属任务,涉及具有重大操作影响的决策和行动。
这种分级授权机制体现了风险-信任权衡原则,保留了人类对高风险决策的最终控制权。
2.3 绩效评估的客观基准
我们不仅需要对行动方案本身进行量化评估,还需要基于人机编队的行动方案生成、评估和调整过程进行绩效评估,并建立相应的指标体系。
这样,我们才能客观、定量地比较纯人类团队与人机混合团队在生成、评估和调整行动方案的效能差异。
2.4 人类团队的角色分类
人类操作员可分为三种核心角色:
整体协调员:负责决策权威,他们掌握最终的选择权;
监控支持人员:负责数据筛选和异常识别;
领域专家:提供特定情境下的深度分析,如情报、作战、后勤、电子战等。
这种角色分解反映了复杂系统中必然存在的劳动分工——没有人能够同时掌握全局态势感知、细节数据分析和专业领域知识。
这种结构确保了人类认知资源的最优配置,避免了认知过载导致的关键信息遗漏。
2.5 AI 团队的角色分类
与人类角色对应,AI 团队成员也被分解为不同的软件 Agent,采用微服务架构实现。比如行动方案评估 Agent、行动方案生成 Agent 等。
这种基于微服务的多智能体架构具有重要的工程意义。微服务架构使得AI Agent 能力可以独立开发、部署、升级和扩展,某个服务的故障不会导致整个系统崩溃。
此外,还需要支持强化反馈机制——各个 AI Agent 微服务之间可以相互交互,并且 AI Agent 还可以与人类 Agent 交互,通过持续学习优化性能。
一个优秀的 AI Agent 微服务不仅要提供正确答案,还要学会理解特定操作员的偏好、工作习惯和认知风格。用户输入和情境信息的结合,使这些 AI Agent 微服务能够随时间改进表现,并学会针对特定人类团队成员定制交互方式。这种自适应能力是人机协作系统从工具进化为队友的关键标志。
2.6 人机交互
人机交互需具备持续自适应能力、排除解释能力(说明资源未使用原因)、一致性的行动方案集的生成能力、个性化交互能力(针对特定操作员的人类偏好)。
2.6.1 从即时响应到持续自适应
人类操作员对 AI Agent 团队成员有多重期望,这些期望定义了系统设计的性能基准。
首先,AI Agent 必须能够在秒级时间内行动。
其次,AI Agent 必须避免抖动(Thrashing),即避免因环境噪声导致的频繁计划变更。
第三,AI Agent 需要基于动态演化的环境条件持续更新计划和预测。
最后,AI Agent 生成的结果必须通过直观、不杂乱且完全集成的用户界面展示。
2.6.2 行动方案可解释性:资产排除逻辑的透明化
指挥官会对这个问题非常关注:AI 需要解释为什么某些资产未被包含在推荐的行动方案中。
这种问题的出现,暗示了人类对资源利用完整性的关注。一个看似完美的行动方案,如果排除了人类认为应该参与的资产,就会引发不信任感。
此外,为了在不同行动方案之间展示权衡,少量高级指标就足以传达重要信息:例如及时性、成功概率、附带损害和机会成本。这四个维度构成了一个多维指标空间,使得复杂的行动方案比较变得可视化、可理解。
2.6.3 人类偏好模型的嵌入
行动方案生成的另一个关键特性是允许人类指定偏好模型。
这意味着人类团队成员能够表达他们对及时性、成功概率等指标的偏好。随后,AI Agent 能够根据提供的偏好模型生成和优化行动方案选项。
这种机制体现了人在环内的设计理念。AI Agent 会在理解人类价值观的基础上,将计算资源集中于探索最符合人类偏好的行动方案子集。
这种设计尊重了人类的价值判断,同时利用了 AI 的计算和学习优势。AI Agent 通过人类指挥官的偏好模型学习这些个体差异,提供定制化的决策支持。
2.7 监控活动
系统需对行动方案的生成、评估和调整过程进行持续监控,并在异常时报警。
对于监控活动,主要绩效指标包括生成警报的能力、提供资产和环境的有意义的上下文信息。
这些指标看似简单,实则蕴含复杂的系统设计要求。有效的警报系统必须平衡灵敏度和特异度——漏报可能导致严重后果,而虚警则会导致操作员的警报疲劳。
上述参考资料,请扫描下面的二维码加入圈子后下载。

