宏基因组分箱分析

最后发布时间 : 2025-04-16 20:19:50 浏览量 :

宏基因组组装和分箱

使用 metaWRAP (v1.3.2) 的功能模块进行具有宏基因组测序数据的人类微生物组基因组重建,该模块是一个管道,包括许多用于构建宏基因组 bin 的模块。首先,应用 metaWRAP-Read_qc 模块来修剪原始序列读数并去除每个测序样品的人为污染。然后,使用 metaSPAdes(v3.13.0)的metaWRAP-Assembly 模块 将测序样本中的干净读数组装在一起。此后,使用 MaxBin2 (v2.2.6)、metaBAT2 (v2.12.1) 和 CONCOCT (v1.0.0)对程序集进行分箱。用于使用 MaxBin2CONCOCT 构建 bin 的重叠群的最小长度的默认值为 1000 bp,metaBAT2 默认为 1500 bp78。通过 metaWRAP 的 bin_refinement 模块对 MAGs 进行细化,使用 CheckM (v1.0.12) 估计bin的完整性和污染度,最小完成度和最大污染度分别为 50% 和 10%。

物种水平聚类和重复数据删除以及 MAG

使用 dRep (v3.0.0) 中的“cluster”程序,以 95% ANI 的阈值将所有 11,584 个 MAG 聚集到物种水平的基因组箱 (SGB) 中。所有 MAG 都使用 GTDB-Tk(v.1.4.1)基于基因组分类数据库 (http://gtdb. ecogenomic.org/) 进行分类注释,该数据库生成了用于本研究分析的标准化分类标签。在基因组分类数据库中包含至少一个参考基因组 (或 MAG) 的 SGB 被视为已知的 SGB。没有参考基因组的 SGB 被认为是未知的 SGB (uSGBs)。然后使用 dRep (v3.0.0) 分两步对所有 11,584 个 MAG (≥50% 基因组完整性和 ≤5% 污染) 进行重复数据删除。首先,使用 Mash 以 90% Mash ANI 将 MAG 分成初级簇。然后,使用每个初级簇在 99% ANI 的阈值处形成次级簇,基因组之间至少有 30% 的重叠。根据 CheckM (v1.0.12)的质量评价标准,将 5403 个 nrMAGs 分为中等质量 MAGs (50% ≤完整性 < 90% 和 ≤5% 污染)和高质量 MAGs (≥90% 完整性和 ≤5% 污染)。

nrMAGs 的丰度估计和系统发育分析

Salmon (v0.13.1) 集成的 metaWRAP-Quant_bins 模块用于估计每个宏基因组样本(发现和验证队列)中每个 nrMAGs 的丰度。nrMAGs 的系统发育树是使用 PhyloPhlAn (v3.0.58)88 构建的。使用 iTOL (https://itol.embl.de/)对树进行可视化。

nrMAGs 的基因组注释

MAGs 的基因组注释首先使用 Prokka (v1.13) 使用 metaWRAPannotate_bins 模块进行。然后使用 MicrobeAnnotator (v2.0.5) 处理注释的基因组,以进行功能注释并计算 KEGG 模块完整性。使用 Kofamsca在精选的 KEGG 直系同源物 (KO) 数据库中搜索所有蛋白质;根据 Kofamscan 的自适应分数阈值选择最佳匹配项。提取没有 KO 标识符(或匹配)的蛋白质,并针对其他数据库(例如 Swissprot、精选的 RefSeq 数据库或非精选的 trEMBL 数据库)进行搜索51。提取与每个基因组(或蛋白质集)中所有蛋白质相关的 KO 标识符,并根据模块中的总步骤、每个步骤所需的蛋白质 (KO) 以及每个基因组中存在的 KO 来计算 KEGG 模块完整性。最后,将结果编译成所有基因组的单个矩阵样模块完整性表。

宏基因组分箱分析(Metagenomic Binning)是将混合微生物群落的基因组组装结果划分为不同“箱子”(bins),每个 bin 理想情况下代表一个单一物种或菌株的基因组。

我们来一套完整流程给你讲解清楚 👇

🌱 宏基因组分箱分析概览

原始reads ➜ 质控 ➜ 组装 ➜ 分箱 ➜ 质量评估 ➜ 物种注释

🧰 一、常见工具和软件

分析步骤工具简要说明
1. 质控fastp / Trimmomatic清洗 reads
2. 组装MEGAHIT / metaSPAdes快速拼接 contigs
3. 分箱MetaBAT2, MaxBin2, CONCOCT根据GC含量+覆盖度聚类 contigs
4. 合并分箱DAS Tool整合多个工具结果,优化 bins
5. 质量评估CheckM评估每个 bin 的完整性和污染度
6. 物种注释GTDB-Tk / Kraken2 / ANI鉴定每个 bin 属于哪个物种

🧪 二、核心步骤详解

1. 宏基因组组装(推荐 MEGAHIT)

megahit -1 clean_R1.fastq -2 clean_R2.fastq -o megahit_out

输出文件:

  • final.contigs.fa:拼接后的 contigs

2. 计算每个 contig 的覆盖度(用于分箱)

使用 bowtie2 + samtools

bowtie2-build final.contigs.fa contig_index
bowtie2 -x contig_index -1 clean_R1.fastq -2 clean_R2.fastq | samtools sort -o aln.bam
jgi_summarize_bam_contig_depths --outputDepth depth.txt aln.bam

3. 分箱(推荐 MetaBAT2)

metabat2 -i final.contigs.fa -a depth.txt -o bins/bin
  • 输出:bins/bin.1.fa, bin.2.fa 等,每个 bin 一个推定的基因组

4. 质量评估(使用 CheckM)

checkm lineage_wf -x fa bins/ checkm_out/
  • 会输出每个 bin 的完整性(completeness)和污染度(contamination)
  • 通常标准是:
  • 完整性 ≥ 90%,污染 ≤ 5%:优质MAG(高质量bin)
  • ≥ 50% 完整性且污染 ≤ 10%:中质量MAG

5. 物种注释(推荐 GTDB-Tk)

gtdbtk classify_wf --genome_dir bins/ --out_dir gtdbtk_out --cpus 8
  • 输出每个 bin 的物种注释(门、纲、属、种等)

🧠 三、可视化工具推荐

  • Anvi’o:强大的宏基因组分析平台(用于交互式分箱)
  • VizBin:可视化 contig 聚类
  • BlobToolKit:查看污染情况、物种构成

🎯 最终你能得到:

  • 一个个 MAG(Metagenome-Assembled Genomes)
  • 每个 MAG 对应一个潜在物种
  • 每个 MAG 有质量评分和分类信息

🧩 BONUS:快速命令整合(conda 环境)

# 安装常用工具环境
conda create -n metagenome_env -c bioconda \
fastp megahit bowtie2 samtools metabat2 checkm-genome gtdbtk -y