一个实现基因组预测的实例
如上一节所述,许多方法已被用于基因组预测。这里,将使用R包rrBLUP
展示实现基因组预测的示例 (Endelman, 2011)。在演示中,将使用另一个R包BLR
中的599个小麦品系的数据集,这些小麦系在1279个DArT标记上进行基因分型。如果你是语言新手,有许多在线资源可用于获取R的基本介绍 (Torfs & Brauer, 2014; Venables, Smith & R Development Core Team, 2016)。
1 | install.packages('rrBLUP') |
GS的几个重要考虑
需要多少动物进行基因分型?
GS 的准确性对与育种成功至关重要,它本身就是动植物育种的一个重要研究领域。除了选择统计模型外,GS 的准确性还取决于许多相互关联的因素,即基因组大小,标记密度,标记与 QTL之间的 LD,QTL 效应的数量和大小,有效群体大小,训练集的大小,训练与测试集动物的关系和性状遗传力。为了达到所需的精确度,训练集的动物数量主要取决于性状的遗传力估计和种群的有效规模。 (Ne) (Figure 2)。较低的遗传力估计将需要一个更大的训练集,同时,较大的Ne也需要相应的更大的训练样本。通常,更多的训练样本将为候选样本提供更准确的预测。例如, 荷斯坦奶牛需要有基因型和表型记录的3000-10000头公牛参考种群才能有0.7的基因组选择精确度。
Figure 2 参考种群中所需的动物数量,以便为估计的GBV精确性达到0.7(Goddard & Hayes, 2009)
多少SNP位点才足够?
snp位点应该覆盖整个基因组,并且要有足够的密度以确保大多数QTL都在LD中,需要至少有一个标记在LD区间,因此,对标记效应的估计可以捕捉到最大的遗传变异。所需SNP的总数主要取决于基因组大小和基因组的LD范围。通常,相邻SNP标记之间的LD的 r2 >0.2
,那SNP将会足够(Calus et al., 2008)。
在实践中,50 K SNP 为奶牛品种提供了较好的预测精度。将密度从50 K进一步增加到800 K,只会略微增加预测精度 (Khatkar et al., 2012)。然而,如果训练集和测试集动物是相关的,基因组关联矩阵(GRM)可用于使用 gBLUP 预测 GBV。GRM 可以用一个很小的 SNP 集精确地计算出来。
用中等密度 SNP 芯片进行基因分型的成本(例如,牛的50 K SNP芯片)大约是每一个 DNA 样本40到100美元。基因分型和测序的成本正在迅速下降,使这项技术应用于更多物种,成本效益更高。此外,基因型估算可以有效地提高基因型数据的密度,降低成本。基因型估算包括用高密度 SNP 集对一小部分群体进行基因分型,并用低成本、低密度 SNP 位点预测其他群体的高密度基因型,这些经过计算模拟的基因型虽然不是太准确,但是还可以用于 GS (Khatkar et al., 2012)。
对基因组预测来说,最重要的因素是样本数还是SNPs数?
更多的记录和更紧密的标记间距提高了准确性。但是,当 SNP 的密度很小时(小于1000个SNPs),在训练集中增加更多的动物对于提高基因组预测的准确性变得更加重要。
是否有可能预测不同品种/群体?
是否有可能预测不同品种/群体—也就是说,使用一个品种的训练动物为另一个品种做预测。GS已成功地应用于群体内育种值的预测。然而,GS 在杂交预测中的成功是有限的。例如,当计算不属于训练组的品种的基因组预测时,精确度接近于零,或非常低 (Kachman et al., 2013)。在这种情况下,使用几个具有中/大效应的 SNP 并采用贝叶斯方法可能会有帮助,因为这可能只包括那些跨品系/品种分离的 QTL。
我们需要有关基因和基因功能的知识吗?
在实践中,大多数GS方法主要使用(非线性)线性模型估计的 SNP 效应,或者仅仅使用 GRM,因此它们没有利用基因、基因功能的特定知识,甚至没有基因组中的SNPs的精确定位。
准确性会随着世代下降吗?
一般,基因组选择中GBVs的预测是利用标记与数量性状位点(QTL)之间的 LD 来实现的。然而,在实践中,尤其是在种内预测,基因组预测的可靠性取决于候选/测试中动物与训练/参考动物之间遗传关系的强弱。因此,当应用于下一代时,来自固定训练集的预测方程的精度会迅速下降。这通常意味着预测方程需要通过添加来自更近几代的动物来更新。
使用GS会增加近亲繁殖吗?
较短的世代间隔和较高的选择强度将使近交系的年率提高。特别是在选择的标记附近近亲繁殖。这将需要在管理种群近亲繁殖方面给予更多的关注。利用基因组关系信息进行仔细的交配选择,如最小同祖先交配和最优贡献选择,可以控制近交系。
水产养殖中的基因组选择
水产养殖物种繁多,由于生命周期、繁殖力、有效种群规模和育种目标的不同,GS 在水产养殖中的潜力将因品种不同而有所不同。目前,以水产养殖品种最多的传统养殖项目主要采用群体选择和家系选择两种方式。同胞系测试是针对那些不能直接在候选样本上测量的性状进行的(例如,在生命后期或屠宰时记录到的性状、抗病性)。以家系为基础的选择只使用了一小部分(一半)的遗传变异,并导致近亲育种的增加。GS 还可以预测家族内部的遗传差异,因此可以利用所有的遗传变异。由于只使用很少的动物/家系而导致近亲繁殖的增加是水产养殖中的一个主要问题。此外,在传统的选择方案中,个体的标记、谱系的记录和单独家系的饲养也是困难和昂贵的。遗传标记的信息可以帮助应对其中的一些挑战。随着测序和基因分型成本的降低,遗传标记和 GS 在水产养殖中的应用越来越受到人们的重视。然而,SNP 集的开发和基因组资源的应用直到最近才在几个水产养殖物种中进行,以此,在实际 GS 实施结果的信息是不全面的。已发表的报告主要是基于 GS 使用模拟数据的效率。所有的模拟研究表明,使用 GS 来进行水产养殖育种可以提高在生产(连续型)和疾病(二分型)位点的选择和遗传增益的准确性。(Sonesson & Meuwissen, 2009);(Nielsen, Sonesson & Meuwissen, 2011); (Lillehammer,Meuwissen & Sonesson, 2013),与传统的同胞系检测相比,近亲繁殖减少了81%(Sonesson & Meuwissen, 2009)。通过结合传统的 BLUP 家系育种值和基于低密度基因分型而不影响遗传增益的家系内育种值,也可以降低基因分型的成本(Lillehammer et al., 2013)。
尽管基因分型和测序成本下降,由于大量样本的养殖和基因分型,基因组选择策略仍然需要很多的成本。然而,部分额外成本可以从增加的遗传收益中弥补而且与传统的选择方案相比,对同胞系样本测试的依赖更少。大多数水产养殖物种中个体动物的价值一般较低(与牛相比)。然而,由于大多数水产养殖物种的繁殖力很高,遗传增益的影响因遗传收益从繁殖核心立即转移到商业池塘而扩大。然而,利用GS优化育种方案还需要进一步的研究,比如在训练和选择中确定最佳的动物数量,标记密度,最小化近亲繁殖最大化长期遗传收益,与传统方案的比较的经济分析。GS 除了用于性状外,遗传标记在水产养殖中还可以提供比传统方法更多的优势,例如,性别相关标记的使用可以生产单性别的后代(Robinson et al., 2014);基因渗入可以用来在种群中引入理想的基因,例如,通过反复回交和标记辅助选择,将对特定疾病的抗性从本地菌株转移到商品菌株(Odegard et al., 2009);标记可用于监测和繁殖来自群体的任何有害突变;遗传物质的可操纵性来保护育种者。
总之,随着基因组技术的快速发展和基因组信息获取成本的不断降低,全基因组选择在提高盈利能力和在个体数增加依旧保持遗传变异性的同时,对提高水产养殖品种的食品生产水平具有很大的潜力。
致谢
十分感谢 Dr. Gerhard Moser 对此手稿的建议。
参考
Calus, M.P., Meuwissen, T.H., de Roos, A.P. and Veerkamp, R.F. (2008) Accuracy of genomic selection using different methods to define haplotypes. Genetics, 178,553–561.
de Los Campos, G., Hickey, J.M., Pong-Wong, R. et al. (2013) Whole-genome regression and prediction methods applied to plant and animal breeding. Genetics, 193, 327–345.
de Los Campos, G., Naya, H., Gianola, D. et al. (2009) Predicting quantitative traits with regression models for dense molecular markers and pedigree. Genetics, 182, 375–385.
Endelman, J.B. (2011) Ridge regression and other kernels for genomic selection with R package rrBLUP. Plant Genome, 4, 250–255.
Erbe, M., Hayes, B.J., Matukumalli, L.K. et al. (2012) Improving accuracy of genomic predictions within and between dairy cattle breeds with imputed high-density single
nucleotide polymorphism panels. Journal of Dairy Science, 95, 4114–4129.
Falconer, D.S. and Mackay, T.F.C. (1996) Introduction to quantitative genetics, 4th edn, Longman, Essex, UK.
Gianola, D. and van Kaam, J.B. (2008) Reproducing kernel Hilbert spaces regression methods for genomic assisted prediction of quantitative traits. Genetics, 178,2289–2303.
Goddard, M.E. and Hayes, B.J. (2009) Mapping genes for complex traits in domestic animals and their use in breeding programmes. Nature Reviews Genetics, 10, 381–391.
Gonzalez-Camacho, J.M., de Los Campos, G., Perez, P. et al. (2012) Genome-enabled prediction of genetic values using radial basis function neural networks. Theoretical and Applied Genetics, 125, 759–771.
Gonzalez-Recio, O., Weigel, K.A., Gianola, D. et al. (2010) L2-Boosting algorithm applied to high-dimensional problems in genomic selection. Genetics Research (Cambridge), 92,227–237.
Habier, D., Fernando, R.L. and Dekkers, J.C. (2007) The impact of genetic relationship information on genome-assisted breeding values. Genetics, 177, 2389–2397
Habier, D., Fernando, R.L., Kizilkaya, K. and Garrick, D.J. (2011) Extension of the Bayesian alphabet for genomic selection. BMC Bioinformatics, 12, 186.
Heslot, N., Yang, H.P., Sorrells, M.E. and Jannink, J.L. (2012) Genomic selection in plant breeding: a comparison of models. Crop Science, 52 (1), 146–160.
Jannink, J.L., Lorenz, A.J. and Iwata, H. (2010) Genomic selection in plant breeding: from theory to practice. Briefings in Functional Genomics, 9, 166–177.
Kachman, S.D., Spangler, M.L., Bennett, G.L. et al. (2013) Comparison of molecular breeding values based on within- and across-breed training in beef cattle. Genetics Selection Evolution, 45, 30.
Khatkar, M.S., Moser, G., Hayes, B.J. and Raadsma, H.W. (2012) Strategies and utility of imputed SNP genotypes for genomic analysis in dairy cattle. BMC Genomics, 13, 538.
Khatkar, M.S., Zenger, K.R., Hobbs, M. et al. (2007) A primary assembly of a bovine haplotype block map based on a 15,036-single-nucleotide polymorphism panel genotyped in Holstein-Friesian cattle. Genetics, 176, 763–772.
Lillehammer, M., Meuwissen, T.H. and Sonesson, A.K. (2013) A low-marker density implementation of genomic selection in aquaculture using within-family genomic breeding values. Genetics Selection Evolution, 45, 39.
Maenhout, S., De Baets, B. and Haesaert, G. (2010) Prediction of maize single-cross hybrid performance: support vector machine regression versus best linear prediction. Theoretical and Applied Genetics, 120, 415–427.
Meuwissen, T.H., Hayes, B.J. and Goddard, M.E. (2001) Prediction of total genetic value using genome-wide dense marker maps. Genetics, 157, 1819–1829.
Moser, G., Tier, B., Crump, R.E. et al. (2009) A comparison of five methods to predictgenomic breeding values of dairy bulls from genome-wide SNP markers. Genetics Selection Evolution, 41, 56.
Nejati-Javaremi, A., Smith, C. and Gibson, J.P. (1997) Effect of total allelic relationship on accuracy of evaluation and response to selection. Journal of Animal Science, 75,1738–1745.
Nielsen, H.M., Sonesson, A.K. and Meuwissen, T.H. (2011) Optimum contribution selection using traditional best linear unbiased prediction and genomic breeding values in aquaculture breeding schemes. Journal of Animal Science, 89, 630–638.
Odegard, J., Yazdi, M.H., Sonesson, A.K. and Meuwissen, T.H. (2009) Incorporating desirable genetic characteristics from an inferior into a superior population using genomic selection. Genetics, 181, 737–745.
Ogutu, J.O., Piepho, H.P. and Schulz-Streeck, T. (2011) A comparison of random forests, boosting and support vector machines for genomic selection. BMC Proceedings, 5 (3), S11.
Pryce, J.E., Goddard, M.E., Raadsma, H.W. and Hayes, B.J. (2010) Deterministic models of breeding scheme designs that incorporate genomic selection. Journal of Dairy Science,93, 5455–5466.
Robinson, N.A., Gopikrishna, G., Baranski, M. et al. (2014) QTL for white spot syndrome virus resistance and the sex-determining locus in the Indian black tiger shrimp (Penaeus monodon). BMC Genomics, 15, 731.
Schaeffer, L.R. (2006) Strategy for applying genome-wide selection in dairy cattle. Journal of Animal Breeding and Genetics, 123, 218–223.
Sonesson, A.K. and Meuwissen, T.H.E. (2009) Testing strategies for genomic selection in aquaculture breeding programs. Genetics Selection Evolution, 41, 1.
Torfs, P. and Brauer, C. (2014). “A (very) short introduction to R,” Hydrology and Quantitative Water Management Group, Wageningen University, The Netherlands,available at https://cran.r-project.org/doc/contrib/Torfs+Brauer-Short-R-Intro.pdf
Tsai, H.Y., Hamilton, A., Tinch, A.E. et al. (2015) Genome wide association and genomic prediction for growth traits in juvenile farmed Atlantic salmon using a high density SNP array. BMC Genomics, 16, 969.
VanRaden, P.M. (2008) Efficient methods to compute genomic predictions. Journal of Dairy Science, 91,4414–4423.
VanRaden, P.M., Van Tassell, C.P., Wiggans, G.R. et al. (2009) Invited review: reliability of genomic predictions for North American Holstein bulls. Journal of Dairy Science, 92,16–24.
Vazquez, A.I., de los Campos, G., Klimentidis, Y.C. et al. (2012) A comprehensive genetic approach for improving prediction of skin cancer risk in humans. Genetics, 192,1493–1502.
Venables, W.N., Smith, D.M. and the R Core Team. (2016). An introduction to R.
Notes on R: A programming environment for data analysis and graphics. Version 3.2.4 (2016-03-10) Available: https://cran.r-project.org/doc/manuals/R-intro.pdf. Accessed 15 April 2016.