方法设计
MEDEA 接受自然语言描述的研究目标,通过 20 个专业工具执行多步分析,其核心创新在于流程每一步嵌入验证机制,而非仅在最终输出时判断对错。
系统包含四大协同模块:研究规划模块在将自然语言转化为分步计划后,同步进行上下文验证(确保细胞类型、疾病等实体与工具兼容)和完整性验证(保障技术可行性与逻辑一致性);分析执行模块在代码执行前后分别检查语法兼容性与输出一致性;文献推理模块先按物种、疾病等维度筛选文献,避免无效检索;多轮讨论模块由三个模型组成的评审团,对工具分析、文献推理与骨干模型三条证据通路进行加权投票,证据不足时主动弃权。
工具空间集成 4 个专业机器学习模型(PINNACLE、TranscriptFormer 等),智能体根据疾病动态调用。实验证明,PINNACLE 在类风湿关节炎等场景更优,TranscriptFormer 擅长肝母细胞瘤分析,体现两类信号的互补性。
细胞类型特异性靶点发现
基于 2,400 次分析(覆盖 5 种疾病 29 个细胞类型),MEDEA 准确率最高提升 45.9%。传统大模型在多步分析中会模糊细胞类型粒度,例如将「初始型 CD4+ αβ T 细胞」简化为「CD4+ T 细胞」,导致类风湿关节炎靶点推荐错误。上下文验证使髓样树突细胞准确率提升 28.9%,初始型 CD4+ αβ T 细胞提升 21.7%。
消融实验揭示结构性矛盾:单独使用大模型错误率达 69.2%(1 型糖尿病高达 80%),而文献检索因细胞类型证据稀缺导致弃权率达 77.6%。完整 MEDEA 通过多源证据互校,在保障覆盖范围的同时确保可靠性。
合成致死推理
在 2,385 次癌细胞系分析中,MEDEA 准确率最高提升 21.7%(MCF7 细胞系)。系统展现三种关键行为:修正 323 例大模型错误(纠错);填补 175 例大模型弃权的正确答案(补漏);在 141 例潜在错误中选择弃权(止损)。其整合 DepMap 基因共依赖分数与通路富集分析,实现可追溯的癌细胞选择性杀伤判断。
免疫治疗响应预测
基于 298 名膀胱癌患者的 894 次分析,MEDEA 准确率最高提升 23.9%。在高肿瘤突变负荷且非炎症型微环境这一难点场景中,修正误分类率达 50.9%。典型案例显示:面对肿瘤突变负荷提示「响应」而微环境分析显示功能障碍的证据冲突,MEDEA 优先采用转录组实测数据预测「不响应」,与患者实际进展结果一致。
验证机制的核心价值
消融实验确认,性能提升源于验证模块而非骨干模型选择。无论采用 GPT-4o 或 Claude 3.7 Sonnet,加入验证机制均显著提效,证明当前组学智能体的瓶颈在于过程可靠性而非推理能力。
MEDEA 输出包含完整推理链条的分析报告,实现「推荐依据可审计」。在需解释决策逻辑的药物发现场景中,这种透明性具有直接应用价值。研究已开源全部代码及评测基准,但需注意局限性:评测依赖现有单细胞图谱,部分环节使用大模型评审,且工具内置细胞类型假设。
药物发现领域中,校准弃权机制——在证据不足时主动拒绝回答——可能比避免错误答案更具实用价值。

