比对格式问题

Phylip 格式

在使 pamlX 的 CodeML 进行 Ka/Ks 计算时,蛋白比对序列需要不含终止密码子且格式为 phylip 格式。如今 phylip 有两种格式:第一种为 Phylip3.2,第二种为 Phylip4。这两种格式具有明显的差别,图示如下:

其中,第一行 Phylip4 是没有 I 标识的,且 Phylip4 格式中是把所有序列的第一行集中起来放置的。在 CodeML 使用中发现只有 Phylip4 可以使用,但是会报错,原因不清楚,但是在 Phylip4 格式文件中第一行也加上 I 标识就可以正常使用了。

格式转换工具

序列比对一般有两种方式:在线版和离线版,现在我通常用 mafft,mafft 比对完后会默认输出 CLUSTAL 的格式。好用的是他提供了 Reformat 来进行格式转换,基本包含了常用的所有格式。离线的一个 python 包工具为 seqmagick,可以进行 fasta 和 phylip,fasta 和 fastq 格式的转换,他还可以使用一个已经比对好的蛋白序列来进行蛋白的 DNA 序列的回比对(具体什么专业名字不清楚),也非常方便。