MAG基因预测、去冗余和定量
使用组转软件Unicycler、spades、megahit等对二代或三代测序的单菌reads进行组装,得到组装的基因组fasta文件。接下来需要对其基因预测和基因功能注释。prokka是原核生物基因预测和初步功能注释的工具。
Unicycler
spades
megahit
编码基因预测: prokka非编码基因预测重复序列预测前噬菌体预测基因岛预测CRISPR预测
https://github.com/tseemann/prokka
prokka \ --outdir $HOME/genomes/Ec_POO247 --force \ --prefix Ec_POO247 --addgenes --locustag ECPOOp \ --increment 10 --gffver 2 --centre CDC --compliant \ --genus Escherichia --species coli --strain POO247 --plasmid pECPOO247 \ --kingdom Bacteria --gcode 11 --usegenus \ --proteins /opt/prokka/db/trusted/Ecocyc-17.6 \ --evalue 1e-9 --rfam \ plasmid-closed.fna
这条 prokka 命令是用于注释一个大肠杆菌质粒(plasmid)的基因组序列。下面是逐项参数的解释:
prokka
--outdir $HOME/genomes/Ec_POO247
--force
--prefix Ec_POO247
Ec_POO247.gff
Ec_POO247.faa
plasmid-closed.fna
--addgenes
gene
--locustag ECPOOp
ECPOOp_00001
--increment 10
--gffver 2
--centre CDC
--compliant
--genus Escherichia
--species coli
--strain POO247
--plasmid pECPOO247
pECPOO247
--kingdom Bacteria
--gcode 11
--usegenus
--proteins /opt/prokka/db/trusted/Ecocyc-17.6
--evalue 1e-9
--rfam
这条命令是在对一个 Escherichia coli 质粒(pECPOO247) 的闭合序列文件 plasmid-closed.fna 进行高质量、NCBI兼容的注释。它:
如需进一步 可视化注释结果(比如用 dna_features_viewer、pycirclize、Artemis 等),也可以继续问我!我可以根据输出文件给你代码建议。