大数跨境
0
0

2024诺奖的间奏狂想曲——如果AI走向microRNA

2024诺奖的间奏狂想曲——如果AI走向microRNA 津渡生科OxTium
2024-10-08
2
导读:虽然本次诺贝尔奖的颁发相比技术发展具有一定的滞后性,但是microRNA 的临床应用已经进入了市场化阶段。
北京时间10月7日,2024年诺贝尔生理学或医学奖揭晓,美国科学家Victor Ambros和Gary Ruvkun获奖,以表彰他们“发现微小RNA(microRNA)及其在基因调控中的作用”。那么,什么是microRNA?它的发现有什么作用?

来自马萨诸塞大学医学院的Victor Ambros教授和来自麻省总医院和哈佛医学院的Gary Ruvkun教授

01
从DNA到RNA:基因调控对于实现细胞功能至关重要


我们的器官和组织由许多不同的细胞类型组成,细胞的DNA中都存储着相同的遗传信息,但是不同的细胞分别表达了独特的蛋白质组。因此只有正确组合的基因才能激活特定细胞类型,使得肌肉细胞、肠道细胞和不同类型的神经细胞能够发挥其特殊功能。此外,基因活性必须不断微调,以使细胞功能适应我们身体和环境不断变化的条件。如果基因调控出现问题,可能会导致癌症、糖尿病或自身免疫等严重疾病。因此,了解基因调控活动是几十年来的一个重要目标[2]。

细胞的DNA中都存储着相同的遗传信息,但是不同的细胞分别表达了独特的蛋白质组

02
从线虫到microRNA:microRNA的基因调控功能被发现


上世纪 80 年代,Ambros 和 Ruvkun 在研究线虫生长相关的生理学机制时,偶然发现了一个奇怪的“指挥官”lin-4 基因。它不指导细胞制造蛋白质,而是产生了一种很短的 RNA 分子。更有趣的是,这个短小的 RNA 分子能够影响另一个基因 lin-14 的工作。1993 年,Ambros 和 Ruvkun 分别发表论文,解释了这个神奇的控制过程。他们认为 lin-4 RNA 就像一把钥匙,能够与 lin-14 基因产生的信使 RNA( mRNA)的某些部分完美匹配。当这把“钥匙”插入“锁孔”后,就会阻止 lin-14 产生蛋白质。


lin-4 基因产生的一小段 microRNA,就像一个微型密码


这个发现一开始并没有引起太多关注。直到 2000 年,Ruvkun 的实验室发现了名为 let-7 的第二个微小 RNA,let-7 不仅存在于线虫中,还在人类和其他动物中被发现。这意味着,微小 RNA 调控机制在动物进化中具有普遍性和重要性。今天,我们已知人类有一千多个不同微RNA的基因,microRNA的基因调控功能在多细胞生物体中普遍存在。

03
从实验室到临床:microRNA的医学应用


Ambros和Ruvkun揭示的microRNA基因调控作用已经工作了数亿年,没有microRNA,细胞和组织就无法正常发育,异常调控则会导致癌症、先天性听力损失、眼睛和骨骼疾病等疾病。虽然本次诺贝尔奖的颁发相比技术发展具有一定的滞后性,但是microRNA 的临床应用已经进入了市场化阶段,比如在诊断方面,microRNA 可以作为疾病的生物标志物,这种无创的检测方法有望革新疾病的早期诊断。

microRNA基因调控作用使生物体得以进化发展
04
让物理学界诧异的人工神经网络荣获今年的诺奖


北京时间10月8日,瑞典皇家科学院宣布,将2024年诺贝尔物理学奖授予美国普林斯顿大学的约翰·霍普菲尔德(John J. Hopfield)和加拿大多伦多大学的杰弗里·辛顿(Geoffrey E. Hinton),以表彰他们“为推动利用人工神经网络进行机器学习作出的基础性发现和发明[3]Hopfield network是物理学与神经科学的首次结合,Geoffrey Hinton则沿着这次碰撞,在计算机领域中迸发出了耀眼的火花。

人工神经网络使用整个网络结构来处理信息。最初的灵感来自于了解大脑如何运作的愿望。在20世纪40年代,研究人员开始围绕大脑神经元和突触网络的数学进行推理。另一个拼图来自心理学,这要归功于神经科学家Donald Hebb的假设,即学习是如何发生的,因为当神经元一起工作时,神经元之间的联系会得到加强。

就像小球滚入谷底,Hopfield network可以通过联想记忆网络迭代到稳定状

Geoffrey Hinton 被称为人工智能教父,与其学生Alex 和 Ilya(open AI 首席科学家)提出了AlexNet等等网络架构,奠定了深度学习的基石。本次诺奖的工作中,以 Hopfield 网络为基础,提出了一种使用不同方法的新网络:玻尔兹曼机,可以有效地学习并识别所给定数据类型中的特征元素。Hinton 使用了统计物理学中的工具,通过向机器提供运行时极有可能出现的示例来训练它,帮助启动了当前机器学习的爆炸性发展。

神经网络的诞生与发展

Geoffrey Hinton 提出的逐层初始化预训练方法,揭开了深度学习的序幕。接下来的时间中,其团队先后提出了反向传播、ReLU激活函数、Dropout等经典方法,在此基础之上,深度学习领域涌现出了CNN、RNN、Transformer等一系列模型,而Transformer便是当前以ChatGPT为代表的大模型算法的核心组件

05
GeneLLM:从物理学到医学:microRNA和人工神经网络的双重“黑神话”


那么叠加双重buff的诺奖之下,开始隆重介绍我司推出的GeneLLM大模型:GeneLLM也是以Transformer为架构基础,在此之上,为了适应cfRNA组学的特殊性,我们设计定制化的cfRNA序列分词算法,直接将cfRNA测序序列经过分词之后当做大模型的输入,从而让大模型有效地捕捉cfRNA片段之间的复杂相互作用。通过这种方法,我们创建了一个包含15亿个参数的基础大模型GeneLLM。

血液中游离的 miRNA 是疾病早期发现的重要标志物类型,也是总游离 RNA 中的重要类型,还有很多其他类型的 RNA(比如 lncRNA、mRNA、circRNA 等)也在各类疾病中发挥重要作用,GeneLLM 是包括 miRNA 在内的所有游离 RNA 的 All-in-One 大模型底座。


GeneLLM 的能力不仅局限于游离 RNA,作为 All-in-One 大模型底座,它可以统合各类遗传及组学物质(DNA、RNA、各类甲基化、蛋白、代谢物等),实现全场景全组学覆盖,用大语言模型、大数据赋能生命健康组学全领域。

预训练后,我们利用具体病患的cfRNA组学数据对模型进行微调。这使模型能够专注于与疾病相关的cfRNA片段,增强其异常检测能力。我们采用了专属于cfRNA疾病筛查和诊断任务的信息解读算法与微调算法来优化模型的性能,确保其能够准确地识别疾病信号。

我们的系统也可以看做一个复杂的多智能体大模型框架。它包括一个强大的特征提取与多尺度信息学习模块,该模块使用我们定制化的大语言模型来处理cfRNA组学数据。然后,这些特征被输入到下游任务模块中,该模块被设计用于疾病检测。我们实施了一种灵活的架构,允许同时处理多种疾病的分类与异常检测任务。

为了评估我们的模型,我们使用了广泛的验证策略。我们不仅评估了模型在标准数据集上的性能,而且还进行了全面的交叉验证,以确保其鲁棒性和泛化能力。

通过这种方法,我们开发了一种具有卓越疾病检测能力的先进模型。我们的系统不仅能够准确地识别异常状态,而且还能提供潜在的生物学洞察力,从而有可能揭示cfRNA在各种疾病中的作用。这种独特的算法方法展示了人工智能在医学领域的强大应用,并有可能改变我们诊断和管理疾病的方式。

 microRNA+GeneLLM大模型=?


比如在常见的阿尔兹海默症检测方法中,脑脊液穿刺是检测的金标准,传统血液检测方法常常依赖有创伤或者单一的检测指标,但是容易出现漏检和误检。二代测序(NGS)检测体液方法也可用于筛查,津渡生科可以通过分析患者血浆中的RNA组学数据,在患者出现体征和行为异常之前检测出阿尔兹海默症的早期信号,提供个性化的疾病发现评分,并生成专业的健康管理报告。


为了验证津灵1000™️和传统技术的吻合度,浙江大学医学院第四附属医院等多个临床机构与津渡生科合作,结果发现GeneLLM大模型用于阿尔兹海默症筛查和诊断的灵敏度高达80%,特异性高于80%,特别是在早期阿尔兹海默症的诊断研究里,准确性指标曲线下面积(AUC)超过91%,明显优于传统技术的筛查效果。


此外,GeneLLM还能对多种癌症进行精准早期诊断。胰腺癌被称为“癌症之王”,早期发现一直是医疗领域的难题。传统的检测方法往往需要依赖影像学检查如CT、MRI和侵入性手段如组织活检,不仅价格昂贵,且难以在早期准确发现。而现在,GeneLLM结合血浆游离RNA,解决了这一难题。通过输入个体的组学数据,GeneLLM会对胰腺癌的发生做出判断,并出具早期发现的检查报告。准确性方面,GeneLLM在3550名具有多种癌症的样本中进行验证,特异性超过99%、灵敏性超过90%,其中各类癌症的AUC值在0.92以上,不仅如此,泛癌的AUC则超过0.975。

津渡生科是一支来自牛津大学的年轻的科研创新创业团队,能够见证这两个伟大的科研成果,并基于他们的工作实现创新融合,是我们的莫大荣幸。我们非常期待能够继续为中国的科技及健康事业做出更多的贡献,也欢迎各位同行和感兴趣的投资者联系我们!


参考资料:

1.https://www.nobelprize.org/

2.https://www.nobelprize.org/prizes/medicine/2024/press-release/

3.https://www.nobelprize.org/prizes/physics/2024/prize-announcement/



关于津渡生科
津渡生科是一家创新型医疗科技公司,业务范围覆盖个体疾病诊断和科研服务两大领域,拥有国际创新领先的cfRNA检测和分析技术,结合自主创新研发多模态医学诊断大模型GeneLLM,开发出全球首个使用cfRNA进行多种疾病筛查的产品“津灵1000™️”,诊断性能显著优于传统技术,实现“一个大模型对多种组学数据、多种疾病进行综合诊断”的突破。同时,津渡生科携手合作伙伴,通过医学大模型赋能诊疗产品,提升医疗资源的利用率,加速国民健康水平提升。

【声明】内容源于网络
0
0
津渡生科OxTium
津渡生科为科研和产业用户提供AI for BioSci算法研发、云平台和训推一体机。基于自研科学大模型GeneLLM打造Bioford平台,面向六大场景医学诊断、药物开发、生物制造、生物育种、环境监测和基础科研,建设九大生命科学模型库。
内容 25
粉丝 0
津渡生科OxTium 津渡生科为科研和产业用户提供AI for BioSci算法研发、云平台和训推一体机。基于自研科学大模型GeneLLM打造Bioford平台,面向六大场景医学诊断、药物开发、生物制造、生物育种、环境监测和基础科研,建设九大生命科学模型库。
总阅读5
粉丝0
内容25