seqkit 是 Wei Shen 使用 go 语言编写处理 fa 和 fq 文件的一把利器,当前介绍版本为0.10.1。这里不详细介绍各个函数的参数,官方给出的文档已经足够。
软件地址:https://github.com/shenwei356/seqkit
1 | Available Commands: |
seq
1 | $ seqkit seq hairpin.fa.gz #展示fa文件 |
1 | $ seqkit seq hairpin.fa.gz -n #展示序列全名 |
1 | $ seqkit seq hairpin.fa.gz -m 50 -M 150 #过滤fq文件,使序列长度在50-150bp之间。 |
subseq
1 | $ zcat hairpin.fa.gz | seqkit subseq -r 1:12 #展示序列前12个碱基 |
gff3 文件第九列格式为ID=XXXXX; gtf 文件第九列格式为 gene_id “A”; transcript_id “”
sample
1 | seqkit sample -p 0.1 -o sample.fq.gz #取序列文件的百分之十 |
shuffle
1 | seqkit shuffle hairpin.fq.gz > shuffled.fq #打乱序列顺序 |
stats
1 | $ seqkit stats *.f{a,q}.gz #统计序列信息 |
faidx
1 | $ seqkit faidx hairpin.fa #建立序列索引 |
fq2fa
1 | $ seqkit fq2fa reads_1.fq.gz -o reads1_.fa.gz #fq转fa |
convert
1 | $ seqkit head -n 1 tests/Illimina1.8.fq.gz |
grep
1 | $ zcat hairpin.fa.gz | seqkit grep -r -p ^hsa #正则匹配序列名 |
rmdup
1 | $ zcat hairpin.fa.gz | seqkit rmdup -s -o clean.fa.gz #去除重复的序列 |
common
1 | $ seqkit common file*.fa -o common.fasta #通过ID寻找共同序列 |
split
1 | $ seqkit split hairpin.fa.gz -s 10000 #按序列数分割文件 |
range
1 | $ cat hairpin.fa | seqkit range -r 101:150 #输出范围内的序列(1:12 如同 head -n 12) |
sort
1 | $ echo -e ">seq1\nACGTNcccc\n>SEQ2\nacgtnAAAA" | seqkit sort --quiet #按ID排序,--quiet不输出提示信息 |
translate
1 | $ seqkit translate tests/mouse-p53-cds.fna #将DNA/RNA 翻译为蛋白序列 |