CAMISIM: simulating metagenomes and microbial communities

最后发布时间:2023-07-16 20:26:17 浏览量:

Abstract

Background

微生物群落的霰弹枪宏基因组数据集高度多样,这不仅是由于基础生物系统的自然变化,还由于实验室协议、复制数量和测序技术的差异。因此,为了有效评估宏基因组分析软件的性能,需要广泛的基准数据集。

Results

我们描述了CAMISIM微生物群落和宏基因组模拟器。该软件可以对不同的微生物丰度谱、多样本时间序列和差异丰度研究进行建模,包括真实和模拟的菌株水平多样性,并根据分类谱或从头生成第二代和第三代测序数据。金标准用于序列组装、基因组装盒、分类装盒和分类分析。CAMSIM生成了第一次CAMI挑战的基准数据集。对于人类和小鼠肠道微生物组的两个模拟多样本数据集,我们观察到与真实数据的功能高度一致。作为进一步的应用,我们研究了进化基因组差异、测序深度和读取错误概况对两种流行的宏基因组组装器MEGAHIT和宏SPAdes的影响,以及对CAMISIM生成的数千个小数据集的影响

Conclusions

CAMISIM可以模拟各种各样的微生物群落和宏基因组数据集,以及方法评估的真实性标准。所有数据集和软件均可在https://github.com/CAMI-challenge/CAMISIM

Usage

使用 CAMISIM,您可以根据分类学概况创建模拟宏基因组数据集,或者从头创建基因组列表。如果使用分类概况作为输入,则从 NCBI 完整基因组创建输出数据集,尽可能反映输入概况,并将包含与输入概况相同数量的样本(如果没有另外指定)。如果社区是从头设计的,一个用户定义的完整基因组的数量被用来创建一个社区,最大限度地提高基因组的新颖性以及系统发育的传播。

CAMISIM 可以从头生成四种类型的模拟宏基因组样本:

  • 个体模拟宏基因组样本:使用从对数正态分布上取样的分类学图谱
  • 模拟宏基因组样本的时间序列:使用从具有高斯噪声的对数正态分布中取样的分类学轮廓,这是将正态分布添加到连续生成的样本中。
  • 一组复制的模拟宏基因组样本:使用从对数正态分布中取样的分类学轮廓,在原始对数正态值中反复加入高斯噪声。
  • 宏基因组差异丰度样本:使用从对数正态分布上取样的分类学图谱。

Output

CAMISIM 的输出是 fastq 格式的读文件,这些读文件以 BAM 格式映射到使用的基因组,用于装配(fast a)、分类(CAMI 格式)和剖析(CAMI 格式)的“黄金标准”。

Resources

包含了 NCBI 分类法的数据库转储,可以从 NCBI FTP-Server 下载当前版本。

Genomes

如果社区设计应从头开始,则需要以 Fasta 格式的基因组进行采样。否则他们会从 NCBI 下载完整的基因组。

De novo 社区设计需要运行三个文件:

  • 一个文件包含,制表符分隔,基因组标识和该路径的文件的基因组。
  • 一个文件,包含,制表符分隔,基因组标识符和该路径的基因组注释。这个是用来模拟基于基因组的菌株
  • 一个[[元数据文件 | 元数据文件格式] ,包含,标签分隔和头,基因组标识符,新颖性分类,分配和分类分类。

至少需要以下文件: “ nodes.dmp”、“ merged.dmp”、“ names.dmp”

USAGE

from_profile

python metagenome_from_profile.py -p defaults/mini.biom

or de novo:

python metagenomesimulation.py defaults/mini_config.ini

要检查 CAMISIM 是否正常工作,可以使用上面的第二个命令执行测试运行:

Metagenome simulation

可以使用现有的16S rRNA 谱或从头创建多种模拟宏基因组数据集: 单个样本,差异丰度或具有不同插入大小和复杂性的时间序列数据集。所有数据集都可以模拟为来自 Illumina HiSeq 或其他机器以及其他技术(如 ONT 或 PacBio)的配对末端测序和错误率。为了生成数据集及其样本,采取了以下步骤:

在基因组数据验证(步骤1)之后,根据指定的标准或给定的分类概况(步骤2)和模拟的宏基因组数据集(步骤3)设计群落组成。黄金标准的创建(步骤4)代表了流水线的最后一部分。

Step 1. Data preprocessing and validation

对于从头宏基因组模拟,所有短于1000个碱基对的序列都从提供的基因组组装中删除,并且经过验证只包含有效性状的序列。输入的基因组可以是 Fasta 格式的基因组草稿,因此在碱基 ACGT 旁边包含模糊的 DNA 特征,如“ RYWSMKHBVDN”。