本文题为《HONeYBEE: enabling scalable multimodal AI in oncology through foundation model-driven embeddings》由Aakash Tripathi、Asim Waqas等来自Moffitt癌症中心和南佛罗里达大学团队提出,构建了一个可扩展的肿瘤多模态医学数据统一表示框架。该系统通过领域专用基础模型处理临床结构化与非结构化文本、病理全切片图像、放射影像及多组学数据,生成患者级嵌入,用于癌种分类、生存预测、相似患者检索与队列聚类等任务。在TCGA 33种癌症、11,400余名患者数据中验证,结果显示临床信息嵌入表现最强,多模态融合在特定癌种中取得额外获益。该研究为肿瘤精准医学提供了统一、模块化的多模态AI基础设施,推动临床可解释与可部署AI发展。
01 摘要
HONeYBEE是一个开源框架,集成了用于肿瘤学应用的多模态生物医学数据。它处理临床数据(结构化和非结构化),全切片图像,放射学扫描和分子谱,使用特定领域的基础模型和融合策略生成统一的患者级嵌入。
这些嵌入能够实现生存预测、癌症类型分类、患者相似性检索和队列聚类。对来自癌症基因组图谱(TCGA)的33种癌症类型的11,400多名患者进行了评估,临床嵌入显示出最强的单模态性能,分类准确率为98.5%,精确度为96.4%。他们还在大多数癌症类型中实现了最高的生存预测一致性指数。多模式融合为特定癌症提供了互补优势,提高总生存率的预测,而不仅仅是临床特征。四个大型语言模型的比较评估显示,像Qwen 3这样的目的模型在临床文本表示方面优于专业医学模型,尽管特定于任务的微调提高了对病理报告等异构数据的性能。
02 研究背景
(一)研究问题
随着医学数字化快速推进,肿瘤学领域产生了来自多源头的海量数据,包括结构化临床变量、非结构化临床文本、放射影像、病理全切片图像以及多组学分子信息。这些多模态数据为肿瘤分类、预后预测、精准治疗和疾病演化建模提供了前所未有的机会。深度学习和基础模型的发展使得单模态领域显著受益,但缺乏一种能够统一处理不同模态数据、生成患者级语义表示的通用框架。
(二)研究难点
数据模态割裂与信息孤岛:临床数据、影像、病理、组学等模态分布分散、格式异构,通常独立处理,限制了跨模态信息融合与患者全链条建模的能力。
无统一的多模态融合框架:现有工具多为特定模态设计,缺乏标准化的数据预处理、嵌入生成与融合流程。
缺少模块化与可扩展基础设施:不同模态工具独立运行,依赖复杂、难复用、难扩展,阻碍临床落地与科研复用。
多模态特征统一与语义对齐难:各模态数据语义分布差异大,如何保证嵌入的统一性和表达力是核心技术瓶颈。
(三)相关工作
现有研究表明,基础模型可从单模态中学习丰富特征,但当前多模态融合研究仍处于碎片化阶段:
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
03 模型设计
总体框架
HONeYBEE面向五类肿瘤学数据建立患者级统一嵌入:①结构化/非结构化临床数据,②病理报告,③放射影像,④病理全切片WSI,⑤多组学分子数据;各模态先经领域基础模型(FM)编码,再用融合策略生成统一表征,用于分类、聚类、生存预测与相似患者检索等任务。
三种多模态融合策略:拼接(concatenation)、均值池化(mean pooling)、Kronecker积,兼容“缺模态”的真实世界数据。
图1 HONeYBEE框架概述
模态与默认FM选择
临床/病理文本:比较了GatorTron、Qwen3、Med-Gemma、Llama-3.2 等语言模型,用于生成文本嵌入并在多任务上评估。
WSI:提供多种病理表征模型,统一提取patch级特征并汇聚为患者级嵌入
放射影像:采用放射影像预训练特征。
分子组学:以SeNMo为代表的自归一化编码器生成多组学潜在向量;嵌入与元数据以可检索的结构化格式存储,支持下游FAISS/Annoy相似度检索与RAG。
图2 由四种语言模型生成的临床文本嵌入的t-SNE可视化,按TCGA癌症类型着色
开放与可扩展性
框架模块化/开源,可直接对接CRDC/PDC/GDC/IDC/TCIA等库,兼容PyTorch、HuggingFace与FAISS,便于替换或新增FM与模态。
针对现有工具“单模态割裂、难复现、难扩展”的问题,HONeYBEE提供标准化预处理、嵌入生成与融合API,提升可复用与可扩展性。
04 实验设置
数据与任务
数据集:TCGA多模态患者级数据(11,400+名患者、33个癌种),多模态可用性不完整,符合临床真实场景;用于评估分类、聚类、生存预测与相似患者检索。
下游任务:
癌种聚类:衡量嵌入空间分离度;
癌种分类:患者级别多分类;
生存预测(OS):每癌种独立建模;
相似患者检索:基于向量相似度检索同癌种患者。
评价指标与基线
聚类:NMI/AMI评估嵌入与已知癌种标签的一致性与质量;临床嵌入在单模态中最强。
分类:使用Random Forest(100棵树,10次独立实验、80/20分层划分)评估精度/F1/Precision/Recall。
生存:CoxPH、RSF、DeepSurv三类模型,5折分层交叉验证(按结局与删失状态分层);小样本癌种会合并相近癌种(如COAD+READ);比较单模态与三种融合。
检索:用FAISS做近邻搜索,报告Precision@k与AMI(检索),对比单模态与融合。
实现与存储
嵌入生成采用GPU/分布式加速;所有嵌入与元数据以HuggingFace Datasets组织,可直接接入向量数据库(FAISS/Annoy)以支撑RAG与队列筛选。
05 结果与分析
1. 单模态 vs 多模态性能表现
研究显示,临床数据嵌入在单模态任务中表现最强,在癌种分类任务中达到98.5%精度,患者检索 Precision@10 达到 96.4%,并在多数癌种的生存预测中取得最佳一致性指数(C-index)。
多模态融合在特定癌种中带来补充优势,尤其是当临床数据不完整时,影像和组学可提供额外的结构与生物学信息,提高存活预测与癌种区分效率。
2. 文本模型性能对比
在临床文本特征提取中,通用大语言模型(如 Qwen3)优于专用医学模型(如 GatorTron),说明跨领域语言学习具有更强泛化能力。
但在异质病理文本下,领域模型微调后性能优于通用模型,表明任务/语域适配显著提升模型有效性。
3. WSI 与放射影像贡献
病理图像通过 WSI pipeline 提供细胞组织学层面信息,在区分亚型与预后方面表现突出:
WSI 嵌入可有效分离肿瘤亚型
在“局部病理驱动”癌种中表现尤佳(如胃癌、乳腺癌等)
4. 生存预测与病人检索
多模态嵌入用于生存预测(OS)和相似患者检索展现出高临床潜力:
|
|
|
|---|---|
|
|
|
|
|
|
06 结论
HONeYBEE 提供了一套可扩展、标准化、多模态肿瘤医学表示学习框架,解决了现有多模态AI研究中数据孤岛、难复现、难融合等问题。
核心贡献概括为:
统一多模态嵌入框架(临床、影像、病理、组学)
模块化设计 + 可插拔基础模型
三类融合策略适配真实临床缺模态场景
可复现、开源、可临床扩展
最终实现:
癌种分类:最高达 98.5% 精度
OS预测:多模态增强
患者检索与聚类:精准患者群体定位
支持真实世界临床不完整数据
07 论文评价
✅方法创新亮点
1. 首个覆盖五模态的肿瘤统一嵌入框架
同时整合:
结构化临床数据
非结构化临床文本(病理/放射报告)
放射影像
病理全切片 WSI
多组学分子数据
2. 模块化 + 基础模型驱动(FM-driven)统一管线
各模态独立编码
自适配不同FM
API方式加入新模型/模态
真正可插拔架构
3. 多模态“缺模态”学习策略
现实世界医学数据并非每人都有全模态采用三种灵活融合:Concatenation / Mean pooling / Kronecker Product,实现多模态协同而不损失缺失样本患者。
4. 自监督与大语言模型在医疗文本的系统对比
比较 Qwen3、LLaMA、Med-Gemma、GatorTron发现通用LLM更佳、但微调在异质文本更强——提供重要工程结论。
5. 医疗向量数据库与检索增强范式结合
支持 HuggingFace datasets + FAISS/Annoy 实现患者检索 / 队列筛选 / RAG for EHR迈向“知识增强临床AI”。
⚠方法不足
该研究虽然提出了首个覆盖临床、影像、病理与组学数据的可扩展多模态嵌入框架,并验证了其在癌种分类、生存预测和患者检索等任务中的有效性,但多模态融合带来的性能提升相对有限,主要集中在临床信息缺失或特定癌种场景。同时,研究基于公共数据集,尚缺乏多中心真实临床应用验证,也未涵盖纵向治疗预测、因果推断和临床决策层面的实验。因此,该方法在实现广泛临床部署和支撑复杂真实世界医疗任务方面仍需进一步优化和验证。
08 参考资料
Article:
10.1038/s41746-025-02003-4
代码链接:
https://github.com/lab-rasool/MINDS
图文:王欢

