从宏基因组中恢复MAG

最后发布时间 : 2025-06-03 10:42:02 浏览量 :

MetaWRAP

Assembled contigs <1 kbp were discarded ref. 对于共同组装，由于数据集的复杂性，即使在内存为 1 TB 的服务器上也无法直接共同组装所有读数。因此，首先对读数进行了归一化处理，将来自高丰度基因组（具有高频 k-mers）的读数降低采样（深度为 70× 覆盖率），并剔除那些可能来自错误的读数（深度低于 2×）。这样，读对总数从 54 亿减少到 29 亿ref。使用带有"--presets meta-sensitive "选项的 MEGAHITv.1.1.2 对 124 个样本进行了单独组装。在这里进行的共同组装中，首先使用 BBmap v.38.08对所有预处理读数进行了合并和归一化处理，参数如下：target = 70，mindepth = 2，prefilter = t。此外，归一化处理后的读数集过于庞大，无法使用 MEGAHIT 中的 "presets -meta-sensitive "标签进行共同组装。因此，按照 MEGAHIT 文档中针对复杂元基因组的建议，使用"--presets meta-large"（使用 MEGAHIT v.1.1.2）进行了组装ref。

宏基因组组装和分箱

使用 metaWRAP （v1.3.2）的功能模块进行具有宏基因组测序数据的人类微生物组基因组重建，该模块是一个管道，包括许多用于构建宏基因组 bin 的模块。首先，应用 metaWRAP-Read_qc 模块来修剪原始序列读数并去除每个测序样品的人为污染。然后，使用 metaSPAdes（v3.13.0）的metaWRAP-Assembly 模块将测序样本中的干净读数组装在一起。此后，使用 MaxBin2 （v2.2.6）、metaBAT2 （v2.12.1）和 CONCOCT （v1.0.0）对程序集进行分箱。用于使用 MaxBin2 和 CONCOCT 构建 bin 的重叠群的最小长度的默认值为 1000 bp，metaBAT2 默认为 1500 bp78。通过 metaWRAP 的 bin_refinement 模块对 MAGs 进行细化，使用 CheckM （v1.0.12）估计bin的完整性和污染度，最小完成度和最大污染度分别为 50% 和 10%。

物种水平聚类和重复数据删除以及 MAG

使用 dRep （v3.0.0）中的“cluster”程序，以 95% ANI 的阈值将所有 11,584 个 MAG 聚集到物种水平的基因组箱（SGB）中。所有 MAG 都使用 GTDB-Tk（v.1.4.1）基于基因组分类数据库（http://gtdb. ecogenomic.org/）进行分类注释，该数据库生成了用于本研究分析的标准化分类标签。在基因组分类数据库中包含至少一个参考基因组（或 MAG）的 SGB 被视为已知的 SGB。没有参考基因组的 SGB 被认为是未知的 SGB （uSGBs）。然后使用 dRep （v3.0.0）分两步对所有 11,584 个 MAG （≥50% 基因组完整性和 ≤5% 污染）进行重复数据删除。首先，使用 Mash 以 90% Mash ANI 将 MAG 分成初级簇。然后，使用每个初级簇在 99% ANI 的阈值处形成次级簇，基因组之间至少有 30% 的重叠。根据 CheckM （v1.0.12）的质量评价标准，将 5403 个 nrMAGs 分为中等质量 MAGs （50% ≤完整性 < 90% 和 ≤5% 污染）和高质量 MAGs （≥90% 完整性和 ≤5% 污染）。

nrMAGs 的丰度估计和系统发育分析

与 Salmon （v0.13.1）集成的 metaWRAP-Quant_bins 模块用于估计每个宏基因组样本（发现和验证队列）中每个 nrMAGs 的丰度。nrMAGs 的系统发育树是使用 PhyloPhlAn （v3.0.58）88 构建的。使用 iTOL （https://itol.embl.de/）对树进行可视化。

nrMAGs 的基因组注释

MAGs 的基因组注释首先使用 Prokka （v1.13）使用 metaWRAP 的 annotate_bins 模块进行。然后使用 MicrobeAnnotator （v2.0.5）处理注释的基因组，以进行功能注释并计算 KEGG 模块完整性。使用 Kofamsca在精选的 KEGG 直系同源物（KO）数据库中搜索所有蛋白质;根据 Kofamscan 的自适应分数阈值选择最佳匹配项。提取没有 KO 标识符（或匹配）的蛋白质，并针对其他数据库（例如 Swissprot、精选的 RefSeq 数据库或非精选的 trEMBL 数据库）进行搜索51。提取与每个基因组（或蛋白质集）中所有蛋白质相关的 KO 标识符，并根据模块中的总步骤、每个步骤所需的蛋白质（KO）以及每个基因组中存在的 KO 来计算 KEGG 模块完整性。最后，将结果编译成所有基因组的单个矩阵样模块完整性表。

宏基因组分箱分析（Metagenomic Binning）是将混合微生物群落的基因组组装结果划分为不同“箱子”（bins），每个 bin 理想情况下代表一个单一物种或菌株的基因组。

我们来一套完整流程给你讲解清楚 👇

🌱 宏基因组分箱分析概览

原始reads ➜ 质控 ➜ 组装 ➜ 分箱 ➜ 质量评估 ➜ 物种注释

🧰 一、常见工具和软件

分析步骤	工具	简要说明
1. 质控	fastp / Trimmomatic	清洗 reads
2. 组装	MEGAHIT / metaSPAdes	快速拼接 contigs
3. 分箱	MetaBAT2, MaxBin2, CONCOCT	根据GC含量+覆盖度聚类 contigs
4. 合并分箱	DAS Tool	整合多个工具结果，优化 bins
5. 质量评估	CheckM	评估每个 bin 的完整性和污染度
6. 物种注释	GTDB-Tk / Kraken2 / ANI	鉴定每个 bin 属于哪个物种

🧪 二、核心步骤详解

1. 宏基因组组装（推荐 MEGAHIT）

megahit -1 clean_R1.fastq -2 clean_R2.fastq -o megahit_out

输出文件：

final.contigs.fa：拼接后的 contigs

2. 计算每个 contig 的覆盖度（用于分箱）

使用 bowtie2 + samtools：

bowtie2-build final.contigs.fa contig_index
bowtie2 -x contig_index -1 clean_R1.fastq -2 clean_R2.fastq | samtools sort -o aln.bam
jgi_summarize_bam_contig_depths --outputDepth depth.txt aln.bam

3. 分箱（推荐 MetaBAT2）

metabat2 -i final.contigs.fa -a depth.txt -o bins/bin

输出：bins/bin.1.fa, bin.2.fa 等，每个 bin 一个推定的基因组

4. 质量评估（使用 CheckM）

checkm lineage_wf -x fa bins/ checkm_out/

会输出每个 bin 的完整性（completeness）和污染度（contamination）
通常标准是：
完整性 ≥ 90%，污染 ≤ 5%：优质MAG（高质量bin）
≥ 50% 完整性且污染 ≤ 10%：中质量MAG

5. 物种注释（推荐 GTDB-Tk）

gtdbtk classify_wf --genome_dir bins/ --out_dir gtdbtk_out --cpus 8

输出每个 bin 的物种注释（门、纲、属、种等）

🧠 三、可视化工具推荐

Anvi’o：强大的宏基因组分析平台（用于交互式分箱）
VizBin：可视化 contig 聚类
BlobToolKit：查看污染情况、物种构成

🎯 最终你能得到：

一个个 MAG（Metagenome-Assembled Genomes）
每个 MAG 对应一个潜在物种
每个 MAG 有质量评分和分类信息

🧩 BONUS：快速命令整合（conda 环境）

# 安装常用工具环境
conda create -n metagenome_env -c bioconda \
fastp megahit bowtie2 samtools metabat2 checkm-genome gtdbtk -y

差异物种分析宏基因组组装策略

王先生

2025-11-18 15:29:21

我想问一下三代的宏基因组测序一般使用什么软件进行组装啊

删除回复取消回复