大数跨境
0
0

手把手教你丝滑使用OpenFold3快速预测生物分子结构

手把手教你丝滑使用OpenFold3快速预测生物分子结构 Dr.X的基因空间
2025-10-31
2

初尝OpenFold3

写在前面的
始于AF3,超越AF3,这是OpenFold3的理念。对于刚问世不久的OpenFold3仅仅包含基础功能(如蛋白质结构预测、配体蛋白互作等预测)而言,它目前或许在准确性上暂时无法超越Alphafold3,但是基于它的开发者联盟倡导的全球用户共同开发的理念,我相信在未来无论是在功能多样性还是在预测准确性上OpenFold3都能成为Alphafold3的理想替代。需要强调的是,OpenFold3联盟宣布其模型完全开源,允许学术和商业使用。相比于Alphafold3仅仅允许获得批准的用户进行学术用途以外,其余限制依然很大。话不多说,今天的推送主要介绍如何简单使用OpenFold3

OpenFold3软件安装部署

       从OpenFold3开发者联盟的发布测试结果看,部署OpenFold3需要至少满足CUDA 12.1及以上版本、显存至少为32GB的GPU的系统。开发者团队建议使用mamba安装OpenFold3。安装OpenFold3建议创建虚拟环境。

基本安装

conda create -p ~/software/miniconda3/envs/openfold python=3.10conda activate ~/software/miniconda3/envs/openfoldpip install openfold3conda install kalign2 -c biocondagit clone https://github.com/aqlaboratory/openfold-3setup_openfold


       注意在setup_openfold时,软件会下载模型权重参数,此时软件会询问你是否下载到默认路径,我选择的否,我自己为OpenFold3的模型权重提供新路径储存。整个setup_openfold过程大概分为4部分:

  • 1.创建 OPENFOLD_CACHE 环境 (可自定义,默认值:~/.openfold3)
  • 2.设置 OpenFold3 模型参数目录 (可自定义:~/.openfold3)
  • 3.将路径写入 OPENFOLD_CACHE/ckpt_path
  • 4.如果参数文件尚不存在,则下载模型参数
  • 5.运行推理整合测试,无需MSA比对(在 A100 上约5分钟),这一步不执行也不会影响软件安装。注意:如果要运行整合测试,必须安装 pytest。

额外可选

       因为模型参数大概有2.3Gb,如果个人网络不好的情况下,可以从OpenFold3的源代码脚本从开发者传输至亚马逊的AWS RODA 存储桶下载已训练的模型参数。链接在github下载好的OpenFold3路径下的download_openfold_params.sh中。默认情况下,这些权重将下载到 ~/.openfold3/目录。同样可以通过提供自定义下载目录来指定下载路径,如下所示:

bash ~/software/openfold-3/scripts/download_openfold_params.sh --download_dir=<target-dir>

简单使用OpenFold3

       按照上述方式配置好软件后,可以尝试使用软件自带的蛋白质数据预测结构。开发者团队给出的结构预测数据案例是一个泛素相关蛋白序列,该序列以JSON格式文件储存。如果想了解如何构建JSON格式的文件可以阅读我之前的Alphafold3教程来理解怎样构建自定义的蛋白序列输入数据。深入浅出理解为什么Alphafold3的输入数据为JSON格式文件不过与Alphafold3相比,该软件的运行命令更简洁。

输入蛋白序列的JSON格式

数据可参考路径examples/example_inference_inputs/query_ubiquitin.json

{	"queries": {		"ubiquitin": {			"chains": [				{					"molecule_type": "protein",					"chain_ids": [						"A"					],					"sequence": "MQIFVKTLTGKTITLEVEPSDTIENVKAKIQDKEGIPPDQQRLIFAGKQLEDGRTLSDYNIQKESTLHLVLRLRGG"				}			]		}	}}

预测结构命令

经过测试下面的命令在A100显卡上可在30秒左右完成。

run_openfold predict --query_json=~/software/openfold-3/examples/example_inference_inputs/query_ubiquitin.json

结果解读

       完成预测后,任务运行路径下会出现一个名为ubiquitin的文件夹,文件夹内部结构如下,其中软件会以默认的随机数种子生成5个可能的结构。最好的结构可以通过评估pLDDT(局部置信度)、PAE(相对位置置信度)和ipTM/PTM(整体置信度)等多个指标选择最好的模型。通过导入文件夹内最好模型的.cif文件即可查看预测的结构

├── compiled_cache.db├── experiment_config.json├── inference_query_set.json├── model_config.json├── summary.txt└── ubiquitin    └── seed_42        ├── timing.json        ├── ubiquitin_seed_42_sample_1_confidences_aggregated.json        ├── ubiquitin_seed_42_sample_1_confidences.json        ├── ubiquitin_seed_42_sample_1_model.cif        ├── ubiquitin_seed_42_sample_2_confidences_aggregated.json        ├── ubiquitin_seed_42_sample_2_confidences.json        ├── ubiquitin_seed_42_sample_2_model.cif        ├── ubiquitin_seed_42_sample_3_confidences_aggregated.json        ├── ubiquitin_seed_42_sample_3_confidences.json        ├── ubiquitin_seed_42_sample_3_model.cif        ├── ubiquitin_seed_42_sample_4_confidences_aggregated.json        ├── ubiquitin_seed_42_sample_4_confidences.json        ├── ubiquitin_seed_42_sample_4_model.cif        ├── ubiquitin_seed_42_sample_5_confidences_aggregated.json        ├── ubiquitin_seed_42_sample_5_confidences.json        └── ubiquitin_seed_42_sample_5_model.cif


       需要注意的是如果你的显卡没有足够内存,OpenFold3也支持在本地调用他们的ColabFold Server的API以完成分析。因为OF3还在继续更新,等有空闲时间后,我将研究一下如何使用OpenFold3预测蛋白与配体、蛋白与各类生物分子的相互作用。

软件使用建议

       基于目前OpenFold3还处于预览版,可能会在半年后该软件才有成熟的版本供大家使用,目前我个人建议如果追求准确性选择Alphafold3,如果追求速度选择SimpleFold,如果不在意速度,无法使用Alphafold3,选择OpenFold3。

番外:基于Docker的安装

       如果用户想通过Docker安装OpenFold3,开发者团队已将镜像打包至HuggingFace链接如下:

https://huggingface.co/OpenFold/OpenFold3/tree/main/docker_image

       完成解压缩后可以得到14GB的文件,可以使用md5码检验文件完整性

md5sum -c openfold3_image.tar.bz2.md5openfold3_image.tar.bz2: OK#解压镜像:docker load --input openfold3_image.tar.bz2#构建OpenFold3 Docker镜像docker build -f Dockerfile -t openfold-docker .

往期精彩

SimpleFold:来自Apple公司的生成式AI软件,可在CPU部署极速完成复杂蛋白的结构预测,亲测大众可用
进阶(一):利用Alphafold3构建蛋白质结构宇宙——从PDB到私人数据库的范式跃迁
实战(三):Alphafold3批量实现蛋白与蛋白、蛋白与核酸、蛋白复合体与核酸相互作用预测
实战!利用本地Alphafold3批量预测蛋白结构及其与生物大分子相互作用
Alphafold3源代码已完全公开(附本地安装教程)

【声明】内容源于网络
0
0
Dr.X的基因空间
【中国科学院博士】10年生命科学数据挖掘研究经验,关注生物医药领域体外诊断(IVD)方向,如肿瘤早筛、传染病未知病原快速检测中的技术创新及其与人工智能(AI)的赋能应用
内容 176
粉丝 0
Dr.X的基因空间 【中国科学院博士】10年生命科学数据挖掘研究经验,关注生物医药领域体外诊断(IVD)方向,如肿瘤早筛、传染病未知病原快速检测中的技术创新及其与人工智能(AI)的赋能应用
总阅读257
粉丝0
内容176