单菌基因预测、去冗余和定量

最后发布时间 : 2025-05-19 22:43:18 浏览量 :

使用组转软件Unicycler、spades、megahit等对二代或三代测序的单菌reads进行组装，得到组装的基因组fasta文件。接下来需要对其基因预测和基因功能注释。prokka是原核生物基因预测和初步功能注释的工具。

编码基因预测: prokka
非编码基因预测
重复序列预测
前噬菌体预测
基因岛预测
CRISPR预测

prokka \
        --outdir $HOME/genomes/Ec_POO247 --force \
        --prefix Ec_POO247 --addgenes --locustag ECPOOp \
        --increment 10 --gffver 2 --centre CDC  --compliant \
        --genus Escherichia --species coli --strain POO247 --plasmid pECPOO247 \
        --kingdom Bacteria --gcode 11 --usegenus \
        --proteins /opt/prokka/db/trusted/Ecocyc-17.6 \
        --evalue 1e-9 --rfam \
        plasmid-closed.fna

这条 prokka 命令是用于注释一个大肠杆菌质粒（plasmid）的基因组序列。下面是逐项参数的解释：

📂 输入输出控制

参数	说明
`--outdir $HOME/genomes/Ec_POO247`	指定输出目录
`--force`	如果目录已存在则强制覆盖
`--prefix Ec_POO247`	输出文件名前缀，例如 `Ec_POO247.gff`、`Ec_POO247.faa` 等
`plasmid-closed.fna`	输入的 FASTA 文件，包含质粒的 DNA 序列

🏷️ 基因标注信息控制

参数	说明
`--addgenes`	为所有 CDS 添加 `gene` 标签（即使没有 gene name）
`--locustag ECPOOp`	每个基因 locus_tag 的前缀（如 `ECPOOp_00001`）
`--increment 10`	基因编号递增步长（默认是 1）
`--gffver 2`	生成 GFF 版本 2 格式（兼容旧工具）
`--centre CDC`	center tag，通常用于提交 NCBI，表示注释单位
`--compliant`	输出符合 INSDC（GenBank）标准的注释文件（强制 ID 格式、locus_tag 格式等）

🧬 物种与功能注释控制

参数	说明
`--genus Escherichia`	物种属名（影响预测）
`--species coli`	物种名
`--strain POO247`	菌株名
`--plasmid pECPOO247`	指定这是一个质粒，名称为 `pECPOO247`
`--kingdom Bacteria`	指定是细菌
`--gcode 11`	遗传密码表（细菌为表11）
`--usegenus`	使用与属名匹配的数据库子集（提高准确性）

🧠 数据库与参数控制

参数	说明
`--proteins /opt/prokka/db/trusted/Ecocyc-17.6`	提供可信蛋白数据库（例如来自 EcoCyc）作为优先比对对象
`--evalue 1e-9`	BLAST 的期望值阈值，越小越严格（更高置信度）
`--rfam`	使用 Infernal/Rfam 检测非编码RNA（如rRNA、tRNA、sRNA等）

✅ 总结：

这条命令是在对一个 Escherichia coli 质粒（pECPOO247） 的闭合序列文件 plasmid-closed.fna 进行高质量、NCBI兼容的注释。它：

使用自定义蛋白数据库（EcoCyc）
严格控制比对阈值
注释所有可能的基因和RNA
自动添加 locus_tag 和 gene 标签
输出适用于提交到 NCBI 的标准格式结果（GFF、GBK、FASTA）

如需进一步 可视化注释结果（比如用 dna_features_viewer、pycirclize、Artemis 等），也可以继续问我！我可以根据输出文件给你代码建议。

组装分析原核生物基因组注释