水产育种中的基因组选择（翻译）(一)

作者：Mehar S. Khatkar

翻译：轩暮

介绍

基因组选择最初在2001年被提出，如今已经在家畜中广泛应用。但是迄今为止在水产物种中的应用却十分受限。在这一章我们介绍了基因组选择的基本原理，并给出如何进行基因组选择的示例，在结尾提出了一些对水产物种的看法。

最新研究的分子技术为获得成千上万的遗传标记提供了可能（典型的标记 SNPs），即使在没有基因组组装或遗传图谱的物种中也是如此。基因分型和测序的成本不断下降，使得在许多水产物种中使用这些工具成为可能。来自家系或非家系群体的基因型数据可以提供对种群结构、基因关联和选择育种信息的见解。事实上，随着分子数据的容易获得性，就不再需要记录家系信息，这可以大大简化育种计划，特别是在水产物种中。本章首先介绍了基因组选择的概念，即遗传标记在选择育种中的应用，然后介绍了遗传标记在水产育种中的应用前景。

基因组选择

分子标记在动物育种中的应用已经有很长一段时间了。然而，直到近些年可以大量地获得全基因组的分子标记，才使得使用DNA检测来直接预测动物的育种特性成为可能。通过模拟， Meuwissen,Hayes, and Goddard (2001)表明动物的遗传值可以不使用其表型或家系信息，只使用在染色体上高密度标记的基因型被准确地估计出来。在这种方法中，最著名的就是基因组选择（genomic selection，GS）或称为全基因组选择（whole genome selection），选择决定是根据基因组育种值(GBVs)作出的，基因组育种值一般使用高密度标记（SNPs）计算得出。基因组选择依赖于如下假设：全基因组标记的密度足够高、至少一个数量性状位点处于高度连锁不平衡区间。整个基因组标记效应的估计将为某一个性状的遗传价值提供准确的预测。

基因组选择的实现非常简单。它使用“训练群体”（多个个体样本）来建立预测方程，该群体既有基因型也有表型。然后，将此方程应用于“测试群体”（另外多个个体样本）的基因型，以计算分子或基因组的育种值(GBVs)。使用育种值排序和选择样本来作为下一代的父母本。（Figure 1）如果需要，可以再使用传统的估计育种值(EBVs)来生成基因组估计育种值(GEBV)。

Figure 1 基因组选择概述（改编自Goddard & Hayes, 2009）

与传统育种方案相比，基因组选择可以提高遗传增益率，因为它可以大幅缩短世代间隔和增加选择强度(Schaeffer, 2006)。例如，绵羊和奶牛的遗传改良率分别提高了25%和100%。基因组选择对于昂贵且难以测定表型的性状尤其有吸引力，这些性状仅以是否死亡来衡量，或在生命后期表达出来(Pryce et al., 2010)。基因组选择可能会增加难以记录性状的遗传增益，例如水产养殖和家禽品种的抗病性，猪的肉质和绵羊一生的羊毛产量及抗虫性。基因组选择技术被认为是动植物育种计划中的一个巨大里程碑。在家畜中，SNP 芯片首次应用在牛中(Khatkar et al., 2007)，这使得基因组选择首次成功地应用于奶牛(Moser et al., 2009)；(VanRaden et al., 2009)。基因组选择已经取代了许多国家的后裔测定方法，或者正应用于后裔测定的幼年公牛预选。目前，基因组选择正被应用于许多其他动植物物种中(Goddard & Hayes,2009)，都具有不同程度的成功。基因组预测的原理甚至在人类研究中得到了应用，特别是对于高危人群的识别进行了最佳干预和个性化治疗。例如，一种基因组预测方法被用来预测人类患皮肤癌的可能性，并取得了很好的结果(Vazquez et al., 2012)。然而，应该注意到在使用“基因组选择”和“基因组预测”这两个术语方面的区别。“基因组选择”已被用于动物育种计划，这包括通过基因组预测鉴定遗传优越的动物选择和选择动物交配以生产下一代。相比之下，“基因组预测”只涉及从基因组信息中预测个体的遗传值，并且更适合于人类研究。

基因组选择的步骤

图 1 已经概述了基因组选择，包括以下主要步骤。

参考群体的准备

构建参考种群需要大量的动物样本。这些动物被用来测定所感兴趣的性状，并对基因组范围的标记进行基因分型，通常使用 snp 芯片来获得大量的 snp 标记。为了进行统计分析，SNP 基因型通常编码为数值变量，取值为0、1或2，分别对应于一个纯合子、杂合子、另一个纯合子。参考群体通常分为训练集和验证集。

预测方程

每个 SNP 标记（编码为0，1和2，一个等位基因的数目或拷贝）效果估计(W)的训练结果统计分析以及所有标记的基因型效应联合生成一个预测方程来估计每种动物的育种值。

GBV = w1∗ SNP1 + w2∗ SNP2 + w3∗ SNP3 +…+ Wn∗ SNPn

w是偏回归系数或称为某个SNP的效应值大小，SNP是基因型（数值型）的载体。

下节提到的许多分析方法的其中一种可以用来建立这样的方程。

预测方程的验证

验证集中的动物也有基因型和表型的数据。将上述预测方程应用于验证集动物的基因型，用以估计 GBVs。预测方程的准确性是通过将估计的 GBVs 值与实际的表型信息进行比较来评估的。连续性状的预测精度可以用性状的预测值和实际值的方差或相关系数来衡量。此步骤是可选的，但提供了关于基因组选择准确性的重要信息，因此建议进行。

测试集个体育种值的计算

测试集个体只需有基因型，不需要表型信息。将预测方程应用于这些动物的基因型计算中。

选择与交配

测试集个体根据GBVs进行排序，而排在顶端的动物则被挑选和交配来生产下一代。

基因组预测模型

几种分析方法已被应用于全基因组的遗传优势预测。可大致分为三大类：

回归方法：基因组选择最简单的形式就是估计每个标记或者数量性状位点（QTL）的效应，然后对每个个体在基因组中的所有位点进行总结。这必须假定有效应的标记处于 LD 区间或者他们本身就是 QTL 位点，而且大部分的遗传变异都是可加的。然而，在使用高密度 SNP 集情况下，标记的数量（p）远大于在训练集中做训练的动物数量（n）。这使得使用简单回归模型估计所有标记的效应具有挑战性。为了解决这个大 p 与小 n 回归问题，提出几种变量选择和收缩估计方法来解决具表型的全基因组预测。Meuwissen et al. (2001)提出三种方法：BLUP (rrBLUP)，Bayes A 和 Bayes B 可以在预测模型中容纳大量的遗传标记。这些方法和其他后续贝叶斯方法：Bayes C𝜋 (Habier et al.， 2011)，Bayesian LASSO (de Los Campos et al.， 2009)， Bayes-R (Erbe et al.，2012) 的不同之处在于SNP/QTL效应的先验分布的定义。关于这些办法的详细介绍和比较，请看 de Los Campos et al. (2013)。偏最小二乘回归 (PLSR) 和主成分回归（PC）通过计算隐变量来降维从而进行预测。(Jannink,，Lorenz & Iwata，2010；Moser et al.，2009)。
基因组关系法：基因组关系法也被称为“gBLUP”。在此方法中，需要计算个体间的基因组关系矩阵(GRM)。然后使用 GRM 计算所有动物的育种值。这种方法与传统的“动物模型”是等价的，主要的区别在于用 GRM 替换基于家系的关系矩阵。同样的模型可以用来估计方差分量和遗传参数。这个框架可以很容易地扩展到多重性状的分析中。这在水产养殖中的应用是非常具有吸引力的，因为水产养殖记录家系信息是非常困难和昂贵的，而 gBLUP 不需要记录谱系信息直接应用于育种。GRM 是基于实际的基因组相似性估计实际亲缘关系。因此，与基于家系的预期关系相比它更准确。比如，减数分裂时染色体的随机分离会导致全同胞家系样本间实际基因组相似性的变化 (Nejati-Javaremi, Smith & Gibson, 1997)。GRM 可以从标记的基因型矩阵构建。VanRaden (2008) 描述了3种构建 GRM 的方法并评价了它们的实际表现。
半参数和机器学习方法：在大多数实践应用中，GBVs只包括加性效应(传递给下一代遗传优势)。然而，在一些育种计划中，发掘显性基因和上位效应会是可取的。例如，通过选配和杂种优势生产具有最高遗传价值的(杂交)后代 (Falconer & Mackay, 1996)。Gianola and van Kaam (2008) 提出非参数方法可以在不显式建模的情况下解释复杂的上位性效应。基因组选择的半参数和非参数程序，如再生核希尔伯特空间 (Gianola & van Kaam, 2008)，径向基函数神经网络(Gonzalez-Camacho et al., 2012)，支持向量机(SVM) (Maenhout,DeBaets & Haesaert, 2010; Moser et al., 2009)，惩罚支持向量机，随机森林(Ogutu, Piepho & Schulz-Streeck, 2011)，boosting (Gonzalez-Recio et al.,2010)可以潜在地利用数千个标记之间的交互作用。 Heslot et al. (2012) 在植物基因组选择中比较了包括机器学习在内的10种不同的方法。