使用 metaWRAP (v1.3.2) 的功能模块进行具有宏基因组测序数据的人类微生物组基因组重建,该模块是一个管道,包括许多用于构建宏基因组 bin 的模块。首先,应用 metaWRAP-Read_qc 模块来修剪原始序列读数并去除每个测序样品的人为污染。然后,使用 metaSPAdes(v3.13.0)的metaWRAP-Assembly 模块 将测序样本中的干净读数组装在一起。此后,使用 MaxBin2 (v2.2.6)、metaBAT2 (v2.12.1) 和 CONCOCT (v1.0.0)对程序集进行分箱。用于使用 MaxBin2 和 CONCOCT 构建 bin 的重叠群的最小长度的默认值为 1000 bp,metaBAT2 默认为 1500 bp78。通过 metaWRAP 的 bin_refinement 模块对 MAGs 进行细化,使用 CheckM (v1.0.12) 估计bin的完整性和污染度,最小完成度和最大污染度分别为 50% 和 10%。
metaWRAP
metaWRAP-Read_qc
metaSPAdes
MaxBin2
metaBAT2
CONCOCT
CheckM
使用 dRep (v3.0.0) 中的“cluster”程序,以 95% ANI 的阈值将所有 11,584 个 MAG 聚集到物种水平的基因组箱 (SGB) 中。所有 MAG 都使用 GTDB-Tk(v.1.4.1)基于基因组分类数据库 (http://gtdb. ecogenomic.org/) 进行分类注释,该数据库生成了用于本研究分析的标准化分类标签。在基因组分类数据库中包含至少一个参考基因组 (或 MAG) 的 SGB 被视为已知的 SGB。没有参考基因组的 SGB 被认为是未知的 SGB (uSGBs)。然后使用 dRep (v3.0.0) 分两步对所有 11,584 个 MAG (≥50% 基因组完整性和 ≤5% 污染) 进行重复数据删除。首先,使用 Mash 以 90% Mash ANI 将 MAG 分成初级簇。然后,使用每个初级簇在 99% ANI 的阈值处形成次级簇,基因组之间至少有 30% 的重叠。根据 CheckM (v1.0.12)的质量评价标准,将 5403 个 nrMAGs 分为中等质量 MAGs (50% ≤完整性 < 90% 和 ≤5% 污染)和高质量 MAGs (≥90% 完整性和 ≤5% 污染)。
dRep
GTDB-Tk
Mash
与 Salmon (v0.13.1) 集成的 metaWRAP-Quant_bins 模块用于估计每个宏基因组样本(发现和验证队列)中每个 nrMAGs 的丰度。nrMAGs 的系统发育树是使用 PhyloPhlAn (v3.0.58)88 构建的。使用 iTOL (https://itol.embl.de/)对树进行可视化。
Salmon
metaWRAP-Quant_bins
MAGs 的基因组注释首先使用 Prokka (v1.13) 使用 metaWRAP 的 annotate_bins 模块进行。然后使用 MicrobeAnnotator (v2.0.5) 处理注释的基因组,以进行功能注释并计算 KEGG 模块完整性。使用 Kofamsca在精选的 KEGG 直系同源物 (KO) 数据库中搜索所有蛋白质;根据 Kofamscan 的自适应分数阈值选择最佳匹配项。提取没有 KO 标识符(或匹配)的蛋白质,并针对其他数据库(例如 Swissprot、精选的 RefSeq 数据库或非精选的 trEMBL 数据库)进行搜索51。提取与每个基因组(或蛋白质集)中所有蛋白质相关的 KO 标识符,并根据模块中的总步骤、每个步骤所需的蛋白质 (KO) 以及每个基因组中存在的 KO 来计算 KEGG 模块完整性。最后,将结果编译成所有基因组的单个矩阵样模块完整性表。
Prokka
annotate_bins
MicrobeAnnotator
Kofamsca
宏基因组分箱分析(Metagenomic Binning)是将混合微生物群落的基因组组装结果划分为不同“箱子”(bins),每个 bin 理想情况下代表一个单一物种或菌株的基因组。
我们来一套完整流程给你讲解清楚 👇
原始reads ➜ 质控 ➜ 组装 ➜ 分箱 ➜ 质量评估 ➜ 物种注释
megahit -1 clean_R1.fastq -2 clean_R2.fastq -o megahit_out
输出文件:
final.contigs.fa
使用 bowtie2 + samtools:
bowtie2 + samtools
bowtie2-build final.contigs.fa contig_index bowtie2 -x contig_index -1 clean_R1.fastq -2 clean_R2.fastq | samtools sort -o aln.bam jgi_summarize_bam_contig_depths --outputDepth depth.txt aln.bam
metabat2 -i final.contigs.fa -a depth.txt -o bins/bin
bins/bin.1.fa
bin.2.fa
checkm lineage_wf -x fa bins/ checkm_out/
gtdbtk classify_wf --genome_dir bins/ --out_dir gtdbtk_out --cpus 8
# 安装常用工具环境 conda create -n metagenome_env -c bioconda \ fastp megahit bowtie2 samtools metabat2 checkm-genome gtdbtk -y