2025-05-20
2022-11-20
随着高通量测序和多组学数据的爆发式增长,现代科研已不再是“实验至上”模式,而是逐步走向“干湿结合、数据驱动”的新路径。说来,我们已分享很多生信文章,也解读很多顶刊前沿文献,但是并没有很好地回答干湿结合的思路和关键技能。我们结合一篇直播课件与两篇经典文献,系统梳理如何从公共数据出发,挖掘关键基因并完成功能与机制验证,形成一篇完整的研究论文。
关于为什么我们要学数据挖掘,我们很早就做过回答了!很多同学在面对实验瓶颈、缺乏研究方向时感到迷茫,数据挖掘恰恰能提供“课题灵感”和“验证方向”。不再完全依赖实验室前期积累,而是直接从海量公共数据库(GEO、TCGA、GTEx等)中挖掘差异表达基因或关键基因。同时,不需要自己测序,即可获得大量样本的表达谱、生存数据、临床信息。通过生信分析,可以初步判断目标基因的表达模式、预后价值、信号通路富集情况,降低实验盲目性。问题的关键不是要不要生信,而是如何学好生信,用好生信!
数据挖掘的基本思路核心是表达有差异 → 差异影响表型 → 表型可验证 → 机制可阐明。比如这篇题为UBQLN4 is activated by C/EBPβ and exerts oncogenic effects on colorectal cancer via the Wnt/β-catenin signaling pathway的研究论文,清晰展示了“生信引导实验”的全流程,是生信学习和干湿结合入门的范本论文。
差异表达分析。使用TCGA数据发现UBQLN4在结直肠癌中高表达,并通过GEO数据库、临床样本qPCR和WB验证。IHC结果进一步确认其表达与肿瘤大小、分期、淋巴结转移正相关。预后与诊断价值,Kaplan-Meier分析显示高表达UBQLN4患者预后更差。ROC曲线表明UBQLN4具有诊断潜力(AUC > 0.7)。
表型验证(功能实验)。增益功能实验:过表达UBQLN4促进细胞增殖、迁移、侵袭(MTS、克隆形成、Transwell、划痕实验)。缺失功能实验:敲低UBQLN4抑制上述表型,并在小鼠模型中验证其抑瘤作用。
机制探究。通过双荧光素酶报告基因、ChIP实验证实C/EBPβ直接结合UBQLN4启动子并激活其转录。GSEA通路富集分析提示Wnt/β-catenin通路富集,WB验证UBQLN4上调β-catenin和c-Myc表达。敲低c-Myc可逆转由UBQLN4过表达引起的促癌表型,确认其下游作用。
肿瘤生信论文中必备的实验技能
同样,在题为Endothelial cell-specific molecule 1 drives cervicalcancer progression的论文中(Cell Death & Disease, 2022),作者遵循类似路径,并结合RNA-seq筛选下游靶基因SYT13,揭示ESM1促进EMT的新机制。


