原核生物基因组注释

最后发布时间 : 2025-05-16 11:36:23 浏览量 :

https://github.com/tseemann/prokka

prokka \
        --outdir $HOME/genomes/Ec_POO247 --force \
        --prefix Ec_POO247 --addgenes --locustag ECPOOp \
        --increment 10 --gffver 2 --centre CDC  --compliant \
        --genus Escherichia --species coli --strain POO247 --plasmid pECPOO247 \
        --kingdom Bacteria --gcode 11 --usegenus \
        --proteins /opt/prokka/db/trusted/Ecocyc-17.6 \
        --evalue 1e-9 --rfam \
        plasmid-closed.fna

这条 prokka 命令是用于注释一个大肠杆菌质粒(plasmid)的基因组序列。下面是逐项参数的解释:

📂 输入输出控制

参数说明
--outdir $HOME/genomes/Ec_POO247指定输出目录
--force如果目录已存在则强制覆盖
--prefix Ec_POO247输出文件名前缀,例如 Ec_POO247.gffEc_POO247.faa
plasmid-closed.fna输入的 FASTA 文件,包含质粒的 DNA 序列

🏷️ 基因标注信息控制

参数说明
--addgenes为所有 CDS 添加 gene 标签(即使没有 gene name)
--locustag ECPOOp每个基因 locus_tag 的前缀(如 ECPOOp_00001
--increment 10基因编号递增步长(默认是 1)
--gffver 2生成 GFF 版本 2 格式(兼容旧工具)
--centre CDCcenter tag,通常用于提交 NCBI,表示注释单位
--compliant输出符合 INSDC(GenBank)标准的注释文件(强制 ID 格式、locus_tag 格式等)

🧬 物种与功能注释控制

参数说明
--genus Escherichia物种属名(影响预测)
--species coli物种名
--strain POO247菌株名
--plasmid pECPOO247指定这是一个质粒,名称为 pECPOO247
--kingdom Bacteria指定是细菌
--gcode 11遗传密码表(细菌为表11)
--usegenus使用与属名匹配的数据库子集(提高准确性)

🧠 数据库与参数控制

参数说明
--proteins /opt/prokka/db/trusted/Ecocyc-17.6提供可信蛋白数据库(例如来自 EcoCyc)作为优先比对对象
--evalue 1e-9BLAST 的期望值阈值,越小越严格(更高置信度)
--rfam使用 Infernal/Rfam 检测非编码RNA(如rRNA、tRNA、sRNA等)

✅ 总结:

这条命令是在对一个 Escherichia coli 质粒(pECPOO247) 的闭合序列文件 plasmid-closed.fna 进行高质量、NCBI兼容的注释。它:

  • 使用自定义蛋白数据库(EcoCyc)
  • 严格控制比对阈值
  • 注释所有可能的基因和RNA
  • 自动添加 locus_tag 和 gene 标签
  • 输出适用于提交到 NCBI 的标准格式结果(GFF、GBK、FASTA)

如需进一步 可视化注释结果(比如用 dna_features_viewer、pycirclize、Artemis 等),也可以继续问我!我可以根据输出文件给你代码建议。