WGS单菌组装分析

最后发布时间 : 2025-04-12 14:55:58 浏览量 :

二代测序(Next-Generation Sequencing, NGS)得到的单菌基因组,要鉴定该基因组属于哪个物种,通常需要经过以下几个步骤:

🧬 1. 基因组组装

首先,需要将二代测序得到的reads进行拼接组装,得到较完整的基因组序列。
常用的组装工具包括:

  • SPAdes
  • Velvet
  • MEGAHIT(主要用于宏基因组,也可试试)

长于 500 bp 的肠球菌菌株的支架用 Prokka 注释,泛基因组由 roary(v.3.11.2) 计算,并由 anvio (v.6.2) 可视化。 (Yang 等, 2022, p. 572) (pdf)

🔍 2. 基因组注释(可选但推荐)

可以使用自动注释工具识别基因、rRNA、tRNA等:

  • Prokka
  • RAST
  • PGAP(NCBI提供)

这一步有助于后续分析,比如功能注释和系统发育分析。

🧠 3. 物种鉴定方法

方法一:16S rRNA比对

如果你只关心大致的分类(属、种级别):

  • 从基因组中提取16S rRNA基因序列
  • 与数据库比对:
  • SILVA
  • RDP
  • NCBI BLAST
  • 缺点:分辨率有限,尤其是对于同属不同种的鉴定不够准确

方法二:平均核苷酸相似性(ANI)分析

最常用、推荐的方法。高分辨率,可精准到种级。

  • 工具:
  • fastANI
  • ANIcalculator
  • pyANI

标准阈值

  • ANI > 95%:可以认为是同一物种
  • ANI < 95%:可能是新种或其他物种

比对你组装的基因组和数据库中已知物种基因组,得到 ANI 值。

方法三:GTDB-Tk 工具(Genome Taxonomy Database Toolkit)

这是一个目前非常主流的工具,用于系统发育定位和物种注释,适用于完整或接近完整的基因组。

  • 输入:组装后的基因组(fasta格式)
  • 输出:分类结果(从门到种)
  • 数据库:基于GTDB(Genome Taxonomy Database)

官网: https://github.com/ecogenomics/gtdbtk

✅ 推荐流程总结:

原始reads -> 组装(SPAdes) -> 基因组fasta文件
└─> 提取16S rRNA + BLAST(粗略鉴定)
└─> GTDB-Tk or fastANI(高精度物种鉴定)