哈佛医学院联手MIT Broad研究所发布MEDEA：组学智能体不缺能力，缺的是「自知之明」- 大数跨境

首页

哈佛医学院联手MIT Broad研究所发布MEDEA：组学智能体不缺能力，缺的是「自知之明」

ScienceAl

2026-03-21

导读：一个自信的错误答案往往比一句诚实的「我不确定」代价更高。

方法设计

MEDEA 接受自然语言描述的研究目标，通过 20 个专业工具执行多步分析，其核心创新在于流程每一步嵌入验证机制，而非仅在最终输出时判断对错。

系统包含四大协同模块：研究规划模块在将自然语言转化为分步计划后，同步进行上下文验证（确保细胞类型、疾病等实体与工具兼容）和完整性验证（保障技术可行性与逻辑一致性）；分析执行模块在代码执行前后分别检查语法兼容性与输出一致性；文献推理模块先按物种、疾病等维度筛选文献，避免无效检索；多轮讨论模块由三个模型组成的评审团，对工具分析、文献推理与骨干模型三条证据通路进行加权投票，证据不足时主动弃权。

工具空间集成 4 个专业机器学习模型（PINNACLE、TranscriptFormer 等），智能体根据疾病动态调用。实验证明，PINNACLE 在类风湿关节炎等场景更优，TranscriptFormer 擅长肝母细胞瘤分析，体现两类信号的互补性。

细胞类型特异性靶点发现

基于 2,400 次分析（覆盖 5 种疾病 29 个细胞类型），MEDEA 准确率最高提升 45.9%。传统大模型在多步分析中会模糊细胞类型粒度，例如将「初始型 CD4+ αβ T 细胞」简化为「CD4+ T 细胞」，导致类风湿关节炎靶点推荐错误。上下文验证使髓样树突细胞准确率提升 28.9%，初始型 CD4+ αβ T 细胞提升 21.7%。

消融实验揭示结构性矛盾：单独使用大模型错误率达 69.2%（1 型糖尿病高达 80%），而文献检索因细胞类型证据稀缺导致弃权率达 77.6%。完整 MEDEA 通过多源证据互校，在保障覆盖范围的同时确保可靠性。

合成致死推理

在 2,385 次癌细胞系分析中，MEDEA 准确率最高提升 21.7%（MCF7 细胞系）。系统展现三种关键行为：修正 323 例大模型错误（纠错）；填补 175 例大模型弃权的正确答案（补漏）；在 141 例潜在错误中选择弃权（止损）。其整合 DepMap 基因共依赖分数与通路富集分析，实现可追溯的癌细胞选择性杀伤判断。

免疫治疗响应预测

基于 298 名膀胱癌患者的 894 次分析，MEDEA 准确率最高提升 23.9%。在高肿瘤突变负荷且非炎症型微环境这一难点场景中，修正误分类率达 50.9%。典型案例显示：面对肿瘤突变负荷提示「响应」而微环境分析显示功能障碍的证据冲突，MEDEA 优先采用转录组实测数据预测「不响应」，与患者实际进展结果一致。

验证机制的核心价值

消融实验确认，性能提升源于验证模块而非骨干模型选择。无论采用 GPT-4o 或 Claude 3.7 Sonnet，加入验证机制均显著提效，证明当前组学智能体的瓶颈在于过程可靠性而非推理能力。

MEDEA 输出包含完整推理链条的分析报告，实现「推荐依据可审计」。在需解释决策逻辑的药物发现场景中，这种透明性具有直接应用价值。研究已开源全部代码及评测基准，但需注意局限性：评测依赖现有单细胞图谱，部分环节使用大模型评审，且工具内置细胞类型假设。

药物发现领域中，校准弃权机制——在证据不足时主动拒绝回答——可能比避免错误答案更具实用价值。

【声明】内容源于网络

ScienceAl

机器之心旗下媒体，关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。

内容 1964

粉丝 0

ScienceAl 机器之心旗下媒体，关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。

总阅读23.4k

粉丝0

内容2.0k