微生物群落的霰弹枪宏基因组数据集高度多样,这不仅是由于基础生物系统的自然变化,还由于实验室协议、复制数量和测序技术的差异。因此,为了有效评估宏基因组分析软件的性能,需要广泛的基准数据集。
我们描述了CAMISIM微生物群落和宏基因组模拟器。该软件可以对不同的微生物丰度谱、多样本时间序列和差异丰度研究进行建模,包括真实和模拟的菌株水平多样性,并根据分类谱或从头生成第二代和第三代测序数据。金标准用于序列组装、基因组装盒、分类装盒和分类分析。CAMSIM生成了第一次CAMI挑战的基准数据集。对于人类和小鼠肠道微生物组的两个模拟多样本数据集,我们观察到与真实数据的功能高度一致。作为进一步的应用,我们研究了进化基因组差异、测序深度和读取错误概况对两种流行的宏基因组组装器MEGAHIT和宏SPAdes的影响,以及对CAMISIM生成的数千个小数据集的影响
CAMISIM可以模拟各种各样的微生物群落和宏基因组数据集,以及方法评估的真实性标准。所有数据集和软件均可在https://github.com/CAMI-challenge/CAMISIM
使用 CAMISIM,您可以根据分类学概况创建模拟宏基因组数据集,或者从头创建基因组列表。如果使用分类概况作为输入,则从 NCBI 完整基因组创建输出数据集,尽可能反映输入概况,并将包含与输入概况相同数量的样本(如果没有另外指定)。如果社区是从头设计的,一个用户定义的完整基因组的数量被用来创建一个社区,最大限度地提高基因组的新颖性以及系统发育的传播。
CAMISIM 可以从头生成四种类型的模拟宏基因组样本:
CAMISIM 的输出是 fastq 格式的读文件,这些读文件以 BAM 格式映射到使用的基因组,用于装配(fast a)、分类(CAMI 格式)和剖析(CAMI 格式)的“黄金标准”。
包含了 NCBI 分类法的数据库转储,可以从 NCBI FTP-Server 下载当前版本。
如果社区设计应从头开始,则需要以 Fasta 格式的基因组进行采样。否则他们会从 NCBI 下载完整的基因组。
De novo 社区设计需要运行三个文件:
至少需要以下文件: “ nodes.dmp”、“ merged.dmp”、“ names.dmp”
python metagenome_from_profile.py -p defaults/mini.biom
python metagenomesimulation.py defaults/mini_config.ini
要检查 CAMISIM 是否正常工作,可以使用上面的第二个命令执行测试运行:
可以使用现有的16S rRNA 谱或从头创建多种模拟宏基因组数据集: 单个样本,差异丰度或具有不同插入大小和复杂性的时间序列数据集。所有数据集都可以模拟为来自 Illumina HiSeq 或其他机器以及其他技术(如 ONT 或 PacBio)的配对末端测序和错误率。为了生成数据集及其样本,采取了以下步骤:
在基因组数据验证(步骤1)之后,根据指定的标准或给定的分类概况(步骤2)和模拟的宏基因组数据集(步骤3)设计群落组成。黄金标准的创建(步骤4)代表了流水线的最后一部分。
对于从头宏基因组模拟,所有短于1000个碱基对的序列都从提供的基因组组装中删除,并且经过验证只包含有效性状的序列。输入的基因组可以是 Fasta 格式的基因组草稿,因此在碱基 ACGT 旁边包含模糊的 DNA 特征,如“ RYWSMKHBVDN”。