大数跨境
0
0

AlphaGenome进阶(一):基因互作预测代码剖解及全基因组3D水平互作预测分析

AlphaGenome进阶(一):基因互作预测代码剖解及全基因组3D水平互作预测分析 Dr.X的基因空间
2025-07-20
0
导读:深度剖解AlphaGenome分析代码,并开展全基因组3D互作预测。

AlphaGenome进阶一:全基因组水平的三维相互作用分析

写在前面的
为了突破如何大规模研究并解读基因组编码区及非编码区的变异是否可能对下游基因表达调控等生物学过程产生影响,DeepMind公司开发了AlphaGenome,旨在将多模态预测、长序列上下文结构和碱基分辨率统一至大模型中并借助计算预测的方法降低基于传统分子生物学实验方法表征这些变异在多种细胞类型中的基因组轨迹的压力。前期的推送中我分享了如何在本地搭建AlphaGenome、如何申请模型密钥、如何利用模型预测单个变异或局部序列对下游基因表达调控或互作的影响并可视化。但是这些技能无法满足用户实现任意且多方位对基因组各个区域的功能研究,本期推送将深入展开如何在进阶使用AlphaGenome。

回顾:AlphaGenome预测基因序列的相互作用

       关于AlphaGenome的安装使用,可以参考之前的推文。本次以研究三维基因组水平的基因序列相互作用为例,将详细剖解AlphaGenome完成预测后信息储存变量的结构及如何拆解储存信息的变量,精准锁定高度相互作用区域。先回顾上一篇推送中涉及基因序列相互作用并可视化用到的代码。其实整个代码框架可以拆解为简单的4个部分:1.加载函数组件、2.加载序列注释文件、3.执行功能预测函数、4.可视化预测结果。

#加载函数组件from alphagenome.data import genomefrom alphagenome.data import gene_annotation, genome, track_data, transcriptfrom alphagenome.models import dna_clientfrom alphagenome.visualization import plot_componentsimport matplotlib.pyplot as pltimport numpy as npimport pandas as pdAPI_KEY = 'APIforUserDeep@Minds20250708'model = dna_client.create(API_KEY)# Load gene annotations (from GENCODE).#加载序列注释文件gtf = pd.read_feather(    'https://storage.googleapis.com/alphagenome/reference/gencode/'    'hg38/gencode.v46.annotation.gtf.gz.feather')
# Filter to protein-coding genes and highly supported transcripts.gtf_transcript = gene_annotation.filter_transcript_support_level(    gene_annotation.filter_protein_coding(gtf), ['1'])
# Extractor for identifying transcripts in a region.transcript_extractor = transcript.TranscriptExtractor(gtf_transcript)
# Also define an extractor that fetches only the longest transcript per gene.gtf_longest_transcript = gene_annotation.filter_to_longest_transcript(    gtf_transcript)longest_transcript_extractor = transcript.TranscriptExtractor(    gtf_longest_transcript)ontology_terms = [    'EFO:0002824',  # HCT116 colon carcinoma cell line.]# 构建序列对象并执行功能预测函数interval = genome.Interval(chromosome='chr22', start=35677410, end=36725986)longest_transcripts = longest_transcript_extractor.extract(interval)output = model.predict_interval(    interval=interval,    requested_outputs={dna_client.OutputType.CONTACT_MAPS},    ontology_terms=ontology_terms,)# 视化绘制相互作用图plot = plot_components.plot(    [        plot_components.TranscriptAnnotation(longest_transcripts),        plot_components.ContactMaps(            tdata=output.contact_maps,            ylabel_template='{biosample_name}\n{name}',            cmap='autumn_r',            vmax=1.0,        ),    ],    interval=interval,    title='Predicted contact maps',)plt.tight_layout()plt.savefig('variant_contactmap_plot.pdf'format='pdf', bbox_inches='tight')plt.show()

       尽管上面的代码绘制出了单个区域的三维基因组互作图谱,但是对于用户而言,具体这个区域中哪部分和哪部分具有更强的相互作用?如何知晓这些相互作用有多强是未知的。只有清晰地理解图片背后的具体数据才能更好地精准研究基因组上具体位置的下游生物学过程。同时上面的代码仅仅只是输入了一个区域,如何在全基因组水平更全面更精准地开展基因序列互作研究,这些问题都需要我们理解AlphaGenome预测结果的细节。只有抽丝剥茧了解数据结构才能从复杂的数据储存单元中提取到我们想要的信息,我们才能更好地开展下游研究。因此,我们首先要学会解读预测结果,其次是根据对预测结果的理解重构代码实现全基因组水平分析。

AlphaGenome预测结果解读

【声明】内容源于网络
0
0
Dr.X的基因空间
【中国科学院博士】10年生命科学数据挖掘研究经验,关注生物医药领域体外诊断(IVD)方向,如肿瘤早筛、传染病未知病原快速检测中的技术创新及其与人工智能(AI)的赋能应用
内容 176
粉丝 0
Dr.X的基因空间 【中国科学院博士】10年生命科学数据挖掘研究经验,关注生物医药领域体外诊断(IVD)方向,如肿瘤早筛、传染病未知病原快速检测中的技术创新及其与人工智能(AI)的赋能应用
总阅读0
粉丝0
内容176