大数跨境
0
0

思考|为什么互联网科技巨头企业争相研究蛋白质结构预测模型

思考|为什么互联网科技巨头企业争相研究蛋白质结构预测模型 Dr.X的基因空间
2025-10-28
1

为什么谷歌、华为等科技巨头都在争相研究蛋白质结构预测AI

写在前面的
之前我专门推送过DeepMind公司的Alphafold3和Apple公司的SimpleFold用于蛋白质结构预测。事实上除了这两个以外,还有其他公司的蛋白质结构预测模型例如华为的MEGA-Protein,腾讯的tFold等。我在上一篇SimpleFold推送的末尾提出了一个问题。现在蛋白质结构预测软件这么多,而且其开发者都是通讯、互联网或AI领域的头部企业,这是为什么?

1.基础生命科学研究所驱动

       在中心法则下,蛋白质作为生命活动的核心参与催化反应、信号传导、物质运输等关键生物功能。而蛋白质的功能由其三级结构直接决定。因此解析其结构是破解生命奥秘的前提。从实验的角度讲如果直接观测到蛋白质结构就能解其调控生命过程的机理,但是传统实验方法存在巨大的效率瓶颈,例如X射线晶体衍射需耗费大量时间培育高质量晶体,冷冻电镜造价超高昂依赖高质量蛋白纯化技术和长时间数据解析,核磁共振技术仅适用于小分子蛋白质。尽管这些方法耗时、费力,但是在巨量科研经费及结构生物学工作者前期的努力下依然通过这些方法获得了大量高分辨率的蛋白质结构数据。但是自然界中蛋白质种类估计超10亿种,而全球权威的蛋白质数据银行(PDB)自1971年建立至今,累计收录的高质量结构仅约20万种,且多为单一构象的静态结构。对于医药研发关注的“孤儿蛋白”(罕见病靶点)、膜蛋白(占药物靶点的60%以上)等复杂类型,实验解析成功率不足10%。如果未来继续以这种方法应对自然界指数级的蛋白质结构显然不现实,因此需要使用基于计算的方法。

2.AI技术突破所追求

       随着人类AI技术发展,越来越多的简单问题可以被解决。在AI发展过程中,其迭代逻辑是“在解决真实复杂问题中优化架构”。所以对于AI发展逻辑而言,需要不断挑战复杂问题,但是AI要挑战的复杂问题必须要是一个可以被验证的复杂问题,例如AI给出了结果或解决方案后,人类可以通过其他途径(哪怕是成本很高的途径)去验证AI给的结果是否合理准确。(其实这种验证法也是AI模型的学习方法,一般构建AI模型时,都需要给AI准确的数据以做训练和验证使用)。因此,对于AI发展而言,需要一个兼具“高复杂性”(能暴露技术短板)和“强可验证性”(能清晰衡量效果)的场景,而蛋白质结构预测恰好完美契合这一需求。蛋白质结构预测本质上属于多模态数据融合的高维建模问题:输入一维的氨基酸序列,输出是平衡了构象异构等复杂理化过程后的三维原子坐标,这种“1D输入→3D输出+动态特性”的复杂映射关系,远超图像识别(2D输入→分类标签)、NLP(文本输入→文本输出)等常规任务,需要对特征提取、多模态融合、泛化能力提出更高的要求。此外,从物理世界尺度来讲,人类科学研究正在往微观尺度深入探索,相关的问题也需要借助AI的力量。尽管蛋白质依然属于宏观物质,但是围绕蛋白质结构折叠的过程中却有电荷调控等微观尺度影响,因此蛋白质可以理解为连接宏观与微观世界的桥梁,对其结构预测模型的训练,本质是打通AI对微观尺度世界的理解壁垒。

3.市场利益所驱动

       医药研发是全球最具价值的产业之一,2024年全球医药市场规模超1.5万亿美元,其中创新药占比超40%,而蛋白质结构预测很大程度上决定了创新药研发的效率与成功率。传统创新药研发平均周期10年、成本超10亿美元,其中”发现靶点“和”设计或筛选药物“是两大核心瓶颈,借助AI的力量,可以将候选药物筛选效率提升10倍以上,筛选或设计药物中的无效实验成本降低90%。某国内AI药企数据显示,采用自主研发的蛋白质结构预测模型后,其首款肿瘤药的研发周期从8年压缩至4年,研发成本降低60%。然而,目前完全依赖AI预测蛋白质依然不是100%准确的。因此这才使得不断有团队挑战创造出能100%预测的模型,在这个过程中不断迭代出准确率更高的模型,使得越来越多的企业应用这些更好的模型,最近形成难以撼动的技术垄断。有了这些技术垄断变可基于模型构建“靶点发现→药物设计→临床验证”的全流程服务生态,绑定药企客户的长期需求。因此从利益的角度出发,巨头企业的确愿意为了这亿万级生物医药市场而研发相关AI。但是并不是巨头企业都能玩转AI,这里面除了资金的雄厚以外,GPU硬件设施和AI算法的软件设施是另两大壁垒,这二者缺一不可。例如,如果AI不需要算法的支持,那么目前蛋白质结构预测模型做得最好的应该是英伟达。因此既要有强大的GPU硬件和充足的AI算法工程师,目前只有互联网或通讯企业企业能满足其基本要求。


【声明】内容源于网络
0
0
Dr.X的基因空间
【中国科学院博士】10年生命科学数据挖掘研究经验,关注生物医药领域体外诊断(IVD)方向,如肿瘤早筛、传染病未知病原快速检测中的技术创新及其与人工智能(AI)的赋能应用
内容 176
粉丝 0
Dr.X的基因空间 【中国科学院博士】10年生命科学数据挖掘研究经验,关注生物医药领域体外诊断(IVD)方向,如肿瘤早筛、传染病未知病原快速检测中的技术创新及其与人工智能(AI)的赋能应用
总阅读92
粉丝0
内容176