飞哥注:
重估一切价值 ---尼采这是一篇石破天惊的文章,一个数量遗传学的专家,认为应该重新评估数量遗传学的概念和分析方法,他在这篇文章中,回顾了数量遗传学的发展历史,前提假定。他认为随着各个学科的发展,一些经典的数量遗传学概念需要革新,并提出了几个建议。全文很精彩,给人很多启发。这里我用谷歌翻译了一下,一些地方做一下批注,建议阅读原文。
文献:Reinventing quantitative genetics for plant breeding: something old, something new, something borrowed, something BLUE
❝Bernardo, R. Reinventing quantitative genetics for plant breeding: something old, something new, something borrowed, something BLUE. Heredity 「125,」 375–385 (2020). https://doi.org/10.1038/s41437-020-0312-1
❞
摘要
在植物育种中,数量遗传学的主要焦点是为环境目标群体确定具有最佳基因型值的候选基因。保持数量遗传学的最新需要保持有用的旧概念,放弃已经过时的东西,引入支持当代育种的新概念和方法。
❝推陈出新,天之道。
❞
连续变异的核心概念是由于多个孟德尔基因座保持不变。由于育种计划中可获得的全部种质并非哈代-温伯格平衡,因此在植物育种中,假设随机交配的经典概念,如等位基因的平均效应和加性方差,需要被忽略。这样做是可行的,因为对于分子标记,需要最小遗传假设的混合模型方法可以用于最佳线性无偏估计(BLUE)和预测。植物育种将受益于借鉴其他学科中有用的方法。例如,可靠性作为衡量遗传与非遗传效应影响的一种新方法,以及设计育种方案的运筹学和模拟方法。这种模拟中的遗传实体不应该是通用的,而应该用育种计划中实际种质的系谱、标记数据和表型数据来表示。多年来,植物育种中的数量遗传学越来越经验性和计算性,理论基础也越来越少。随着育种计划中可用数据的数量和类型的增加,这一趋势将继续下去。
❝数量遗传学中,基于随机交配的相关概念,基因的平均效应,加性方差等概念,有些过时了。高通量分子标记的来临,相关统计分析方法(混线性模型)更新,使得育种数据分析更倾向于运筹学、机器学习等学科,而且计算方法更倾向于经验性和计算性能上。比如基因组选择,利用系谱,分子标记,固定的模型,GBLUP,RRBLUP等。
❞
在过去几十年中,植物育种和数量遗传学的发展应该引起我们停下来思考数量遗传学如何才能最好地应用于当代植物育种。本文的目的是为反思、讨论和建设性辩论提供一个框架,以便在当前植物育种的背景下重新创造数量遗传学的原因和方法。本文提出的观点主要适用于这一背景,可能不适用于其他领域,如人类遗传学和动物改良,其中数量遗传学也发挥了重要作用。
数量遗传学的起源和基础
植物育种家有时可能认为,数量遗传学的发展是为了提高植物和动物的改良。毕竟,农作物和牲畜品种中最重要的经济性状是数量性状而不是质量性状。然而,数量遗传学的发展并不是为了为不同物种的人工选择提供基础,而是为了模拟未知基因如何导致连续性状的变异。数量遗传学起源于一个多世纪前两组英国著名科学家之间的激烈争论:卡尔·皮尔森和W.F.R.韦尔登领导的生物学家和威廉·贝特森领导的孟德尔学家(Provine 1971)。
❝数量遗传学的两个流派
❞
生物学领域始于弗朗西斯·高尔顿(Francis Galton)关于人类特征,特别是身高如何从父母传给后代的研究(Galton 18691889)。高尔顿观察到一种向平庸回归的现象(现在称为向平均值回归),即高个子父母的后代往往比他们矮,矮个子父母的后代往往比他们高。对于身高,高尔顿估计后代对中亲值的回归为2/3。举例来说,假设父母的平均身高超过人口平均身高9厘米。它们后代的身高会有所不同,但平均而言,预计会超过群体平均身高2/3 × 9 = 6 cm。皮尔森后来分析了高尔顿的数据以及随后的数据(皮尔森和李1903年),发现父亲和母亲的身高与他们的儿子和女儿的身高的相关平均值为0.51。研究发现,兄弟相关系数略高于亲子相关系数(平均值为0.53)。总的来说,Galton和Pearson的这些研究表明,人类的持续变异至少是部分遗传的,尽管这些性状的传播机制仍然是个谜。
❝起始于高尔顿对身高的研究。
❞
这些生物学家的发现与孟德尔的发现不一致,后者于1900年由雨果·德弗里斯、卡尔·科伦斯和埃里希·冯·茨切马克独立发现。孟德尔的研究结果表明遗传的微粒性质导致了不同的分类,而不是一个给定性状的连续观察。由于没有明显的表型分类,孟德尔认为连续性状是不可遗传的。德弗里斯把变异的连续性和不连续性作为性状遗传性的标准(马瑟1949)。
❝孟德尔定律重新被发现。
❞
1918年,R.A.费舍尔写了一篇题为“孟德尔遗传假设中亲属之间的关系”的论文,试图调和生物学家和孟德尔主义者的矛盾观点。这样,这篇开创性的文章为我们今天所知的数量遗传学奠定了基础。标题中的“假设”一词表明了数量性状是由孟德尔模式的基因控制的推测,而费希尔假设的关键是连续变异是许多这样的基因累积效应的结果。费舍尔表明,这种定量变异的模型可以导致生物学家发现的亲属之间建立良好的相关性。Fisher最初提出了两个关键假设,以使模型易于处理:个体随机交配,每个双等位基因位点的行为独立于其他位点。这两个简化的假设使得基因型频率可以用等位基因频率来表达,反之亦然,根据Hardy-Weinberg平衡,并且允许用单个基因座的效应来描述跨基因座的累积效应。在他的文章中,Fisher研究了多个等位基因、连锁、分类交配和上位性的影响。
❝Fisher将生物学实际观察(连续的)与孟德尔注意(质量性状)用统计的方法统一起来,于是乎数量遗传学出现了。
❞
费舍尔推导的一个关键特征是将效应分为可传递和不可传递两部分。遗传性或“加性”部分是由于个别等位基因的影响,通过父母传递给其后代。这些等位基因的遗传效应后来被称为等位基因的平均效应(Fisher 1941)。二倍体基因座上两个等位基因的平均效应导致的变异称为加性方差(VA)。另一方面,影响的不可传播部分包括优势度偏差以及任何环境影响;对费希尔来说,显性偏差是“一种残基,其作用方式与测量中引入的任意误差大致相同。”由显性偏差引起的方差后来被称为显性方差(VD)。Fisher认识到由于不同基因座上等位基因的相互作用而产生的效应的存在,并将这种效应作为线性模型中的高阶扩展来处理:“我们可以用上位性这个术语来描述这种偏差,尽管这种偏差可能更复杂,但具有与显性相似的统计效应。”
❝可以遗传的为加性效应,不可以遗传的为非加性效应,用一个模型统一起来。性状剖分!
❞
Fisher重新审视了Galton的亲子回归概念,并得出该回归等于½VA/(VA + VD)。因为Fisher将VD视为与随机误差没有任何区别的残值,我们可以将此亲子回归修改为等于½VA/VP = ½h2,其中VP是表型方差,h2 = VA/VP是狭义遗传力。回到我们的身高示例,假设父亲的身高和总体平均身高之间的差异用S表示。如果父亲和母亲的身高不相关(即交配是随机的,与身高有关),那么后代身高的预期偏差(与总体平均数)等于½。
❝用这一套理论,去套高尔顿“身高”的问题,迎刃而解!
❞
我们认为这个表达式显然与所谓的繁殖方程R = h2S有关,其中R是对选择的反应,s是选择差(Lush 1937)。½因子是由于两个亲本中只有一个回归,这种情况相当于没有花粉控制的植物群体选择,通过R量化的遗传增益等于½h2S。这个简短的历史总结表明,虽然数量遗传学最初是作为一门基础而不是应用科学发展起来的,但数量遗传学确实为设计能够最大化遗传增益的育种计划提供了一个框架。
重新评估数量遗传学
为什么要为植物育种重新评估数量遗传学?
多年来,科学家们研究了数量遗传学与植物育种过程的融合。20世纪40年代,研究了杂种优势的遗传基础(Comstock and Robinson 1948;Robinson et al.1949)和轮回选择程序(Jenkins 1940;Hull 1945;Comstock et al.1949)的发展,以解决在品系和杂种发育中的感知限制(Jenkins 1934)。20世纪50年代和60年代被描述为植物育种数量遗传学的黄金时代(Gardner 1977),因为这20年来对亲缘间协方差的研究(Kempthorne 1954;Cockerham 1956);估计VA、VD和上位性方差的交配设计(Comstock和Robinson 1952;Cockerham 1963);不同植物物种遗传变异的经验估计(Gardner 1963;Matzinger 1963;Hallauer和Miranda 1988);基因型××环境相互作用(Sprague和Federer 1951);稳定性分析(Finlay和Wilkinson 1963;Eberhart和Russell 1966);多性状指数选择(Brim等人1959;Pešek和Baker,1969年)。20世纪70年代,人们开始研究同工酶作为数量性状的标记(Stuber和Moll 1972;Hamrick和Allard 1975)。早就应该在20世纪80年代开始研究在育种计划中选择亲本的正式方法(Dudley 1984)。从20世纪90年代到现在(Bernardo 2016),与植物育种相关的“浪潮”包括QTL连锁作图、关联作图、全基因组预测(或基因组选择)、表型组学、环境分型和基因编辑。
❝传统的数量遗传学,有个研究的黄金周期,杂种优势,轮回选择,各种交配设计,方差协方差,G by E,稳定性,多性状选择指数。
后浪:QTL,GWAS,GS,表型组学,基因编辑❞
20世纪20年代的植物育种与过去几十年的植物育种明显不同,前段所述的一些较老的数量遗传学方法可能已变得无关紧要。下面介绍了数量遗传学应用于植物育种的三个原因:不同的期望、未满足的假设和新的工具。
育种家的期望变了
育种家对数量遗传学的期望变了
半个世纪前,植物育种家期望数量遗传学能为多重问题提供答案(达德利和摩尔1969年),这些问题可以归纳为三个方面:
-
(1) 哪种种质最有前途?
-
(2) 应该培育什么品种?
-
(3) 应该采用什么育种方法?
数量遗传学的方法确实可以为上述每一个问题提供答案。一组具有较高平均值和较大VA的种质将构成有前途的育种种质,关于平均值和遗传方差的信息可以组合成一个有用性标准(Schnell 1983),用于估计给定群体中最佳个体的选定比例的平均值。玉米(Zea mays L.)产量(Hallauer和Miranda 1988)存在大量的杂种优势和VD,这表明杂交或合成品种是合适的。对于不同类型的轮回选择程序,可以使用不同版本的繁殖者方程,以及VA、VD和非遗传方差的估计,以确定哪些繁殖程序将导致最大的预测增益。
然而,现实情况是,前两个问题的充分答案是在没有任何详细的定量遗传分析的情况下获得的。例如,可以对大量种质进行表型鉴定,以确定具有最佳平均表现的候选人。关于种质起源的信息,或者自20世纪90年代以来,分子标记的数据可以用来评估种质多样性。杂交品种是可行的,如果一个杂交种在很大程度上优于它的亲本,如果杂交种子可以生产出一个成本效益高的方式,与VD的估计是不必要的。对于第三个问题,不同的轮回选择方法,如轮回批量选择、半同胞轮回选择、全同胞轮回选择或互惠轮回选择,预测的R是不同的。然而,主要作物品种的育种家,如玉米、小麦、水稻、大豆、小麦、番茄(solanumlycopersicum)更倾向于采用双亲杂交的非重复系和杂种发育系统,而不是采用宽基群体的长期轮回选择。由于双亲杂交中重组自交系间的方差在2VA是恒定的,因此通过不同的方法(系谱育种法、批量法、单粒下降法、,或双倍单倍体),只要在品系发育过程中的某个时候对品系进行了可靠的表型鉴定。
那么,现在的植物育种家对数量遗传学有什么期望呢?今天的植物育种家期望从数量遗传学中得到一个主要结果:帮助确定对于给定的一组连续性状,哪些候选者具有最佳的基因型值,基因型值被定义为对候选者在目标群体环境中表现的期望。候选品种将是单株、部分自交系或自花授粉物种(如小麦)的重组自交系;异花授粉物种(如玉米)的试验杂交或杂种;或无性繁殖物种(如木薯)的个体克隆。与50年前的上述三个问题相比,这种对寻找具有最佳基因型价值的品系、杂种或克隆的单一强调是一个更为集中的目标(Dudley和Moll 1969)。这种独特的强调表明,在数量遗传学中用来解决更广泛问题的一些经典方法已经过时了。
经典假设没有满足
数量遗传学中的经典假设在植物育种中没有得到满足
Fisher(1918)提出的两个主要假设-随机交配和分离位点的独立性在植物育种计划中通常没有得到满足。在以轮回选择为主要繁殖程序的物种中,随机交配的假设是成立的,因为轮回选择的每个周期都是由前一个周期中的一组被选择的个体随机交配产生的。轮回选择在苜蓿(Medicago sativa L.)和多年生黑麦草(Lolium perenne L.)等牧草物种中很常见,但如上所述,在玉米和小麦等行作物中不常见。纯合玉米或小麦双亲杂交的F2具有通过随机交配获得的1:2:1基因型比。因此,可以将每个F2群体视为随机交配群体,并且可以估计VA、VD和h2,但是这种估计仅适用于给定F2群体。
在大多数情况下,育种计划中的全部种质并不包括随机交配群体。例如,美国的玉米育种种质包括来自关键祖先的品系,如A632、B37、B73、Iodent、LH82、Maiz Amargo、明尼苏达13、Mo17和Oh43(Troyer 1999;Mikel和Dudley 2006)。玉米育种的重点是发展新的自交系,保持这些谱系或在同一时间只结合这些谱系的少数版本。这些关键谱系的优势表明,育种计划中的玉米种质不能作为一个随机交配群体的代表。
分离位点间连锁平衡或独立性的假设尤其有问题(Cockerham 1963)。为了达到连锁平衡,需要多代随机交配,特别是对于紧密连锁的基因座。虽然遗传学家有时能够创建经历了多代随机交配的图谱群体(例如,杂交B73××Mo17玉米群体(Lee et al.2002)),但育种家在品种开发计划中没有这种奢侈。植物育种未能满足经典数量遗传学理论的两个主要假设,这表明有必要重新审视这一理论或找到规避这些假设的方法。
新的工具出现
新的工具和计算能力已经出现
两项技术的发展为数量遗传学和植物育种提供了新的途径。首先,在不同的植物物种中,廉价而丰富的分子标记使得在20世纪80年代以前不可能进行新类型的分析。育种家和遗传学家在70年代仅限于使用多达几十个同工酶标记,但是在20世纪80年代,随着限制性片段长度多态性(RFLP)标记的发展,可用标记的数量增加了(Beckmann和Soller 1983)。在RFLP标记之后发展的其他类型的标记包括随机扩增多态性DNA标记、扩增片段长度多态性标记和简单序列重复标记。随着单核苷酸多态性(SNP)标记的发展,标记的数量急剧增加,与以往的标记系统不同,单核苷酸多态性标记适用于高通量基因分型平台(Syvänen 2005)。自2010年代以来,单核苷酸多态性基因分型的成本有所下降,以至于在主要作物品种中,基因分型的每样本成本(Ertiro等人,2015年)低于多环境表型的每个体成本(http://techservicespro.com/).
第二,计算机的发展增强了数据分析和模拟。著名的玉米育种家G.F.Sprague在20世纪40年代提出了一般配合力和特殊配合力的概念(Sprague和Tatum 1942),他曾经告诉我,在他那个时代,建立一个冬季苗圃是不可行的,因为无法及时分析秋季收获的产量数据,以选择包括在冬季苗圃中的候选品种。当我1988年在一家种子公司开始我的职业生涯时,某一年产量试验的数据只用于当年选择最佳品系和杂交种的目的。这些数据尚未被视为对累积的历史数据集的宝贵贡献,这些数据集有助于预测候选人今后几年的表现。1994年,我为单交叉性能开发了genomic best linear unbiased prediction(GBLUP),第一次GBLUP计算是在具有64兆随机存取存储器的奔腾90机器上实现的(Bernardo 1994),此后公司内部的这种思维方式开始改变。今天的计算机允许进行大规模的数据分析,比如求解一个含有多达200万未知量的方程组(Gray 2016),以及统计重采样程序,比如引导和交叉验证(Efron 1980),这在以前是不可能的。
❝作者1994年就已经开发出了GBLUP方法,我们现在(2021)年了,才开始普及这种方法进行育种的计算。
❝❞万里无云如同我永恒的悲伤 --海子
❞
旧的概念
为植物育种重新发明数量遗传学需要重新审视数量遗传学中的经典概念和方法,保留仍然有用的东西,放弃已经过时的东西,并考虑新的想法。人们可能会质疑是否需要重新发明,因为另一种方法是简单地让数量遗传学的语言随着使用和滥用而演变,以至于目前的一些实践可能与最初的概念没有什么相关性。我们作为实践者仍然能够有效地相互沟通,因为我们都遵循相同的实践。然而,这篇观点文章的一个前提是,如果我们希望我们的科学是精确和严谨的,那么我们应该精确地定义关键概念,并严格遵守这些概念。这里的立场是,最好发明新的概念来适应新的发展,而不是强迫新的发展成为可能无法适应它们的经典概念。
下面描述的是八个主要的观点,可以作为植物育种新数量遗传学的基础。这些想法是按照“旧的东西,新的东西,借来的东西,蓝色的东西”的古英语韵脚组织起来的
旧:多基因座加上环境影响
正如Fisher(1918)所假设的,由于多个孟德尔基因座的联合效应,连续变异将继续被模拟。不需要对潜在QTL的数量做任何假设。然而,对于大多数性状而言,QTL的数量预期较大,其个体效应预期较小。
数量变异的核心模型仍然是P = G + E,其中P是表型值,G是基因型值,E是非遗传效应的残值。更具体地说,环境j中基因型i的表型值被建模为:
式中,µ是总平均值;gi是基因型i的效应;ej是环境j的效应;(ge)ij是与基因型i和环境j相关的基因型 × 环境交互效应;ij是环境内误差。这个经典的线性模型保持不变。但是,可以有多种方法来建模gi、ej和(ge)ij组件。例如,(ge)ij本身可以被建模为一个乘法效应,作为基因型i的交互作用分数和环境j的交互作用分数的乘积(Gollob 1968;Gauch 1988)。环境分型可用于模拟ej成分,至少部分是作为环境变量(如降水量和温度)的函数.
旧:确定最佳基因型值的候选
植物育种工作者一直对确定和选择具有最佳基因型价值的候选品种感兴趣,随着育种计划的扩大,候选品种数量的增加,这些努力将会加强。植物育种一直以来都是预测性的,即在P = G + E方程中,G分量是从观测到的P中预测出来的。当E接近零时,从P中预测G显然会变得更精确。使表型更准确和精确的方法,使E接近零,将继续是重要的。
育种计划中常规产生的表型数据和SNP标记对于预测其他候选基因型值很有用(参见Bernardo(2020)的综述)。这种预测通常通过GBLUP进行,其中SNP标记用于估计个体之间的相关性(Lynch 1988;VanRaden 2008),或者通过岭回归-最佳线性无偏预测(RR–BLUP)等方法进行,其中,每个SNP标记的效应是从一组相关个体中计算出来的(Meuwissen等人,2001年)。当QTL数量较大,不存在主要QTL,并且QTL在基因组中均匀分布时,GBLUP和RR–BLUP方法是等效的(Fernando 1998;Habier et al.2007)。考虑到GBLUP是在四分之一世纪前发展起来的(Bernardo 1994),而通过RR–BLUP或贝叶斯模型进行全基因组预测是在近20年前提出的(Meuwissen等人,2001),我们必须考虑这两种预测基因型值的方法。
旧:继续寻找主效QTL
主要的QTL等位基因,如小麦抗镰刀菌(F.graminearum)赤霉病的Fhb1(Anderson et al.2007)和水稻耐淹性的Sub1(Septiningsih et al.2009),将继续在品种发育中发挥作用。一个主效QTL的效应大且一致,足以在育种计划中有意义,这意味着一个QTL可能在一个育种计划中被认为是主效的,但在另一个育种计划中则不被认为是主效的(Bernardo 2014a)。主要的QTL可能存在于形态、物候和对生物和非生物胁迫的耐受性等性状中,但对于高度选择的性状(如优良种质的产量)可能不存在。
性状平均值的预期变化应作为评价标记性状关联是否代表主效QTL的标准。R2值不应用作标准,因为高R2值可能对应于太小的预测变化。例如,明尼苏达大学的研究确定了一个R2 = 27%的玉米油浓度标记(Garcia 2008)。QTL阳性等位基因可使籽粒含油量由3.5%提高到5.5%。由于高油玉米杂交种的含油量高达8.0%(Lambert等人,1998年),QTL的影响被认为太小,不能被视为玉米育种中的主要QTL(Bernardo 2020年)。
旧:哈代-温伯格平衡中不需要参考群
如前所述,Fisher(1918)关于随机交配种群的假设在植物育种中通常被违背。现在是公开承认这一事实的时候了,而不是通过估计非随机交配种群(Sughroue和Hallauer 1997)或多样性面板中的VA和h2等参数来假装满足随机交配种群的假设。费舍尔的随机交配假设在1918年是必然的。相比之下,今天的SNP标记的可用性允许育种家追踪染色体片段的传播,因此不需要假设随机交配。此外,由于育种家主要对确定具有优良基因型值的候选品种感兴趣,因此不需要有一个参考群体,无论哈代-温伯格是否存在这样的参考群体。
为了说明这一点,假设重组自交系是由(亲本1××亲本2)F2和(亲本1××亲本2)××亲本1)BC1自交形成的。F2群体可以假设为随机交配群体,因为分离位点的预期基因型比为1:2:1与随机交配的基因型比相同,而BC1群体则不能做出相同的假设,因为分离位点的预期基因型比为1:1,其中一个纯合子没有恢复。在这一点上,育种家只是对鉴定最好的重组自交系感兴趣,而不管自交系是来自F2还是BC1。繁殖者无需对F2或BC1中的平均值或VA或h2进行推断,因此一个种群处于Hardy-Weinberg平衡而另一个种群不处于Hardy-Weinberg平衡是没有意义的。
前面的例子也揭示了数量遗传学中两个学派之间的历史分歧:爱丁堡/艾伦·罗伯逊/法尔科纳(1960)学派强调随机交配中的任意等位基因频率,远交群体与伯明翰/马瑟(1949)学派的比较,该学派侧重于纯合系之间的杂交,其等位基因频率预计在分离位点为½。虽然爱丁堡学派由于强调用任意等位基因频率进行人工选择而在动植物育种中变得更为普遍,但伯明翰学派的特点使其自然适合当今的植物育种。同时,等位基因频率½很容易适应爱丁堡框架,F2基因型频率是随机交配的预期频率。因此,爱丁堡和伯明翰学校都适用于植物育种中遇到的F2群体。
不需要参考群体也可以避免候选群体是基础群体的随机成员,还是不是任何群体随机成员的一组固定的品系、克隆或杂种。假设候选品种是一组具有不同遗传背景的小麦品种和商品化前期品系。在这种情况下,行的方差分量(如果行是随机的)替换为∑ci2/(n - 1),其中ci是第i个候选的固定效应,n是候选的数目。
新的概念
新:不需要定义不同类型的遗传变异
Fisher(1918)创立的经典数量遗传学关注育种价值。然而,育种价值是最小的价值,植物育种家有两个原因。首先,植物育种家对基因型价值比育种价值更感兴趣。基因型值是候选个体本身的值,而育种值则是候选个体与随机个体交配时后代的平均值。为了说明动植物育种之间的一个关键区别,奶牛(牛)的育种价值是至关重要的,因为顶级公牛的价值不是因为它自己的产奶量(为零),而是因为它的雌性后代的优良产奶量。相比之下,小麦品系或木薯克隆的基因型价值是最重要的,因为生产者将种植小麦或木薯品种本身,而不是品种的后代。因此,基因复制植物而非动物的能力在这一区别中起着关键作用。上述情况并不意味着育种家对个体后代的表现不感兴趣:相反,选择好的亲本是植物育种成功的关键。以上所述意味着,作为未来父母的个体首先是根据其作为个体的优越基因型价值来选择的。
第二,育种价值只有在随机选择配偶时才被定义,正如Falconer(1985)所指出的,“育种价值的概念在交配不是随机的情况下没有任何有用的意义。”如前所述,随机交配的假设在植物育种中通常被违反。
如果我们接受育种价值的经典概念对植物育种家没有意义,那么VA也没有意义,因为VA是育种价值之间的方差。VD和上位性方差(VI)同样没有意义,因为这些方差与VA来自同一个框架。因此,为植物育种重新发明的数量遗传学将淘汰VA、VD和VI的概念。另一方面,植物育种学生仍需要学习VA、VD和VI,以便他们能够了解经典文献,并与从事非植物物种研究的定量遗传学家进行交流,这些概念仍然很重要。
那么应该用什么来代替VA、VD和VI呢?逻辑上的替代方法是简单地计算候选变量的方差分量。换言之,育种家可以计算F2植株间的VF2;F3系间的VF3;重组自交系间的VRI;克隆间的VClone;半同胞家系间的VHS;全同胞家系间的VFS;以及单杂交间的VSX。单交通常在两个互为补充的杂种优势群的亲本之间进行,VSX可以划分为第一个杂种优势群亲本的一般配合力(GCA)的VGCA1,第二个杂种优势群亲本的一般配合力(GCA)的VGCA2,以及特定配合力效应的VSCA。对于这些方差分量中的任何一个,不要使用符号VG是很重要的,因为VG通常被定义为VA + VD + VI的和。因此,避免使用VG符号将减少混淆。
计算方差分量,例如VF2或VClones或VSX,其优点是由于正在进行选择的候选者之间的遗传效应而直接表达变异。例如,如前所述,重组自交系的方差分量为VRI = 2 VA。因此,VRI量化了候选系之间表达的遗传变异量,而VA本身则没有。Fisher(1918)的连锁均衡假设对于定义和估计候选变量的方差分量是不必要的。
交配设计,如析因,嵌套和双列设计已经发展到估计VA和VD(科克汉姆1963年)。这项建议使这种交配设计过时。如上所述,在混合模型分析的框架内,可以用限制最大似然法(Dempster et al.1977;Harville 1977)来估计由候选变量引起的方差分量,这一点在本文的结尾进行了描述。
借用机器学习
借用:关注可靠性和最小显著性差异
使VA、VD和VI的概念失效也意味着使h2的概念失效。这应该没有什么实际意义,因为,如前所述,h2衡量的是遗传效应的比例,而育种家更感兴趣的是候选人本身的表现,而不是他们后代的表现。另一方面,植物育种家将继续对数量性状的自然与后天的影响感兴趣。广义遗传力定义为H = (VA + VD + VI)/VP,传统上提供了这样的度量。把H称为“遗传力”的一种形式是矛盾的,因为在H中捕获的显性和非加性上位性效应从父母到后代是不可遗传的。
实际上,早在20世纪60年代,h2和H的概念就被认为在植物中是混乱的(Hanson,1963)。在动物中,h2的定义很简单,因为单个动物既是选择单位,也是定义h2的基础。相比之下,单个植物是大规模选择中的选择单位,而不是植物中使用的其他育种程序中的选择单位。假设在多年生黑麦草随机交配群体的半同胞家系中进行选择。VA的总量在随机交配群体中的单个植株中表达。但是,当h2通过重新排列繁殖者方程来估计为h2 = R/s时,得到的h2的分子有¼VA而不是(1)VA,因为只有四分之一的VA在半同胞家族中表达。汉森(1963)得出结论,植物遗传力的定义“在混乱的迷宫中迷失了”,他提出了考虑h2和H替代品的必要性(但并不情愿)。
“可靠性”的概念可以作为一种替代性的测量方法,来衡量先天与后天对表型测量的影响(Bernardo 2020)。可靠性被定义为测试或测量的一致性,可靠性被广泛用于衡量教育、行为和工业环境中的测试质量(Cronbach 1951)。例如,如果同一个学生在参加不同版本的考试时获得相似的分数(假设该学生的能力在重考中保持不变),那么大学入学考试就被认为是可靠的。测量信度有几种方法,其中之一是VSubjects/(VSubjects + Ve),其中VSubjects是受试者的方差分量,Ve是误差方差。在植物育种中,可靠度可以定义为候选个体除以VP得到的方差分量。
重复性被用作重复测量之间一致性的度量(Falconer 1960)。虽然可靠性与可重复性相似,但两者不同,因为可重复性可以指在空间或时间上对同一个体的多次测量(例如,对同一棵树上的多个果实的测量)或(例如,从同一植物上多次收获),而可靠性则涉及多次测量(例如,在不同的树上)(Bernardo 2020)。在植物中,重复性通常用于测量多年生牧草物种多次收获的一致性(Casler等人,2008年;Braz等人,2015年)。重复性也被提出是指“评估基因型的非随机样本”时的遗传力估计值(Fehr 1987)。这样的建议导致了混淆,因为它增加了第二个含义,不同于Falconer(1960)所描述的可重复性的原始概念。因此,可靠性的概念填补了遗传性和可重复性(Falconer 1960)都没有填补的长期空白。
虽然高i2表示测量结果一致,但有关构成统计显著性差异的信息也有助于选择。例如,育种家可能意识到h2对于镰刀菌的抗赤霉病性约为0.40,但他们可能会惊讶地发现,h2的水平可能对应于一个试验中感染率为0%的品系和另一个试验中感染率为7%的品系。作为一项标准实践,报告i2和最小显著性差异的估计值是有帮助的,例如,“在重组自交系中,可靠性和最小显著性差异(括号中;P = 0.10)的估计值为产量0.50(0.72 Mg ha–1),蛋白质百分比0.70(0.85%),对于镰刀菌赤霉病的发病率,建议采用宽松的显著性水平(P = 0.10或0.20),考虑到品种评估中I型误差与II型误差的相对影响(Carmer 1976)。
借用:模拟方法设计育种方案
主要物种的植物育种就像一个工厂过程,在这个过程中,原材料(种质)被输入到一个制造系统(生产线、杂交种或克隆发展)中,以获得经过严格测试和质量控制(多环境试验)后上市和分销的产品(品种)(Bernardo 2020)。育种计划的各个组成部分可以很容易地设计。例如,杂交形成新的育种群体的亲本可以根据多性状的优异表现和亲本间的SNP多样性进行选择。VClones××Environments和Vɛ的估计值可用于确定检测数量性状的给定差异所需的每个环境的环境和复制数,以确定其统计显著性。选择指数可以包含不同性状的经济权重信息。然而,这些零碎的方法并没有将整个植物育种计划视为一个相互依赖的过程系统。植物育种家将受益于工具的可用性,以设计一个植物育种计划作为一个整体。
这些工具需要从其他领域借用。运筹学涉及使用先进的分析方法做出更好的决策,并可用于设计育种过程,如性状导入(Cameron et al.2017)。计算机模拟长期以来一直被提倡用于制造系统(carrie1988)。不是通过育种者方程计算单个杂交的R,而是可以根据所需的成本和时间来模拟整个育种计划的遗传增益。已经开发了模拟软件包,如QU-GENE(Podlich and Cooper 1998)、AlphaSim(Faux et al.2016)和DeltaGen(Jahufer and Luo 2018),用于模拟数量变异和选择,并且此类软件已用于比较育种方案(Wang et al.2003;Jahufer and Luo 2018)。在未来,模拟工具需要能够结合现有的种质、分子标记数据和表型数据作为输入变量。这意味着在一个小麦育种计划中,例如,模拟过程中的遗传实体将不是普通个体,而是反映计划中使用的实际小麦品系的系谱,以及它们相关的SNP和多个性状的表现数据。
在植物育种中加入模拟工具需要改变典型的植物育种课程,以及增加与运筹学、数据科学和制造系统模拟方面的专家的合作。商业育种机构会倾向于雇佣在这些领域有专长的毕业生。
❝将来的就业方向
❞
新的计算方法BLUE
BLUE:混合模型分析
混合模型分析涉及固定效应的最佳线性无偏估计(BLUE)和随机效应的BLUP(Henderson 1975,1985),已被证明是分析育种计划中常规产生的表型和SNP数据的有效框架。行间作物的繁殖者通过在一年或几年内对多个地点的同一组候选者进行评估来进行平衡试验。然而,整个表型数据在候选人、地点和年份之间是高度不平衡的。混合模型分析提供了两个关键的优点:它处理不平衡的数据,它可以通过一个或多个随机遗传效应的协方差矩阵合并来自亲戚的信息。
混合模型分析的线性模型可以是公式1或其扩展。例如,线性模型可以扩展到包括主要QTL(Bernardo 2014b)、亚群体(Yu等人2006)、转基因或不同类型细胞质的固定遗传效应,或固定环境效应,如氮肥水平或田间种植的先前作物。随机遗传效应可能对应于GBLUP中的品系、克隆或杂种,或RR–BLUP中的SNP标记。标记间的连锁反映在RR–BLUP的系数矩阵中,从而避免了假设连锁平衡的需要。
BLUP方法于1970年首次用于动物育种,用于评估人工授精计划中的1200头荷斯坦奶牛(Freeman 1991)。BLUP在植物中的应用始于涓涓细流,首先是通过将配合力的估计值缩小到平均值(Melchinger等人,1987年),然后利用来自亲戚的信息来预测单交表现(Bernardo 1994年)。令人鼓舞的是,自2000年代以来,混合模型分析已成为植物育种学生熟悉和常见的植物育种计划。
混合模型分析的使用降低了遗传学的作用,增加了统计学在数量遗传学中的作用。30多年前,统计遗传学家奥斯卡·肯普霍恩(Oscar Kempthorne)已经在动物育种中观察到了这种趋势,他对动物育种理论给出了以下特征(Kempthorne 1988):
“一个人的基因是基因座间独立的基因群中的随机基因,而环境效应可以看作是独立高斯随机变量的实现,我们看到,我们把整个理论简化成了我们在统计学中称之为混合线性模型的理论。结果是,所谓的动物育种理论被简化为具有固定效应和独立高斯随机效应的混合线性模型理论。
因此,遗传学已经从思维中消失了,除了使用关系系数或亲属关系系数或“亲子关系系数”(Malécot 1948)或亲子关系系数(Kempthorne 1957)
新的方法:基因组选择
因为混合模型分析现在使用GBLUP中的SNP标记数据,而不是通过传统的BLUP基于系谱的协方差系数。GBLUP中使用的收缩系数(λ)相当于BLUP中的(1 - h2)/h2,可以通过网格搜索和交叉验证来估计,以找到最大化模型预测能力的λ值(de Vlaming和Groenen 2015)。因此,不需要估计h2,在这种情况下,确定具有最佳基因型值的候选基因纯粹是一个统计学问题。总的来说,如本文所述,数量遗传学的重新发明涉及到计算和经验的方法,而不是基于经典理论和假设。随着越来越多的表型和单核苷酸多态性数据以及其他类型的数据(例如,气候或文化管理实践)成为育种决策的依据,这一趋势无疑将继续下去。
当你点击阅读原文的时候,你就可以阅读原文!


