gwas

质量控制

质量控制是为了去掉在测序过程中低质量的、没有测到的和测序的接头序列。质控软件大同小异,在去除低质量碱基时,最好使用的方法应该是滑动窗口。

因为根据目前的测序原理,read的错误率会明显富集于末端区域,而前半部分的质量都会比较高,这种计算(SOAPnuke按照低质量碱基比例去除序列)比例的方法并不能很好地反映这一现象。

质控同时要注意测序下机数据 fq 文件的质量值格式是Phred33还是Phred64。

数据比对

数据比对软件还是最常用的 bwa ,在构建参考序列索引时,is 算法最快(基因组小于1G常用),而 bwtsw 用于大基因组。

在 bwa mem算法比对时,-R '@RG\tID:foo_lane\tPL:illumina\tLB:library\tSM:sample_name' -R参数中的@RG信息要给出,如果没有给出,仍然可以使用 picard 中 AddOrReplaceReadGroups 对 sam 或 bam 文件进行加头处理。这个信息对于我们后续对比对数据进行错误率分析和Mark duplicate时非常重要 。

另外,samtools 可以利用参考基因组为 sam 或者 bam 文件加上 header 中的 @SQ 信息。

变异检测

变异检测核心是使用 GATK 中的HaplotypeCaller 组件进行 snp calling 。而决定变异检测最终结果的好坏则是Variant quality score recalibration(VQSR),其中VQSR中使用VariantFiltration进行硬过滤时,我的参数为:--filterExpression "QD < 2.0 || MQ < 40.0 || ReadPosRankSum < -8.0 || FS > 60.0|| HaplotypeScore > 13.0 || MQRankSum < -12.5"

在获得变异 vcf 文件后将其转为基因型文件后,常常发现有些个体在某些位点上是没有基因型的,这个时候就需要Beagle软件将这些空缺的位点补齐,形成一份完整的变异文件。

vcf 文件也可以 使用SnpEff, Annovar 这个2个软件进行变异注释,得出每一个变异位点的确切功能。

个性化分析

个性化是变异文件内容充分挖掘的过程,是从几百万 snp 位点中挑选出和表型具有显著联系的几个或几十个位点的过程。如果群体结构简单,是单一种群使用简单线性模型(GLM)即可得出良好的结果,如果测序的包含多个群体,或者单群体经过群体结构分析(PCA分析、structrue分析)分群严重,则可以使用混合线性模型(MLM)进行分析,MLM 需要亲缘矩阵(K)和群体结构矩阵(Q)作为协变量建模计算。

建模计算出结果后便可以使用结果中的P值画曼哈顿图和QQ图,QQ图用来检测结果的正态性,曼哈顿图中阈值一直在讨论和研究中,包括且不限于(Bonferroni校正,sampleM,Keff,SLIDE)方法来确定阈值,一般简单的,使用0.05/snp数作为阈值,如果结果有点差,可以做出图后确定阈值后在阈值上留下1-100个点为好。

在选出显著性位点后,查看注释文件确定位点的位置、变异、功能等,处于编码区还是非编码区,是否改变氨基酸等。接下来就是找出这些点所处的基因或基因的上下游什么位置。一般以位点的上下游500Kb搜寻,严格的可以以上下游100Kb。

经过资料、文献的确认接下来就要准确确认基因的信息(所选基因很可能是某个亚家族的一个分支),方法可以是进化树、domain 分析。

推荐文献

质控:

Sickle: A sliding-window, adaptive, quality-based trimming tool for FastQ files
Cutadapt removes adapter sequences from high-throughput sequencing reads

比对:

Fast and accurate short read alignment with Burrows–Wheeler transform

变异检测

Performance benchmarking of GATK3.8 and GATK4

A One-Penny Imputed Genome from Next-Generation Reference Panels

Genotype imputation for genome-wide association studies

Non-Synonymous and Synonymous Coding SNPs Show Similar Likelihood and Effect Size of Human Disease Association

个性化分析

Mixed linear model approach adapted for genome-wide association studies

The importance of cohort studies in the post-GWAS era

From genome- wide associations to candidate causal variants by statistical fine- mapping