CAMISIM: simulating metagenomes and microbial communities

最后发布时间:2023-07-16 20:26:17 浏览量:

Abstract

Background

微生物群落的霰弹枪宏基因组数据集高度多样，这不仅是由于基础生物系统的自然变化，还由于实验室协议、复制数量和测序技术的差异。因此，为了有效评估宏基因组分析软件的性能，需要广泛的基准数据集。

Results

我们描述了CAMISIM微生物群落和宏基因组模拟器。该软件可以对不同的微生物丰度谱、多样本时间序列和差异丰度研究进行建模，包括真实和模拟的菌株水平多样性，并根据分类谱或从头生成第二代和第三代测序数据。金标准用于序列组装、基因组装盒、分类装盒和分类分析。CAMSIM生成了第一次CAMI挑战的基准数据集。对于人类和小鼠肠道微生物组的两个模拟多样本数据集，我们观察到与真实数据的功能高度一致。作为进一步的应用，我们研究了进化基因组差异、测序深度和读取错误概况对两种流行的宏基因组组装器MEGAHIT和宏SPAdes的影响，以及对CAMISIM生成的数千个小数据集的影响

Conclusions

CAMISIM可以模拟各种各样的微生物群落和宏基因组数据集，以及方法评估的真实性标准。所有数据集和软件均可在https://github.com/CAMI-challenge/CAMISIM

Usage

使用 CAMISIM，您可以根据分类学概况创建模拟宏基因组数据集，或者从头创建基因组列表。如果使用分类概况作为输入，则从 NCBI 完整基因组创建输出数据集，尽可能反映输入概况，并将包含与输入概况相同数量的样本(如果没有另外指定)。如果社区是从头设计的，一个用户定义的完整基因组的数量被用来创建一个社区，最大限度地提高基因组的新颖性以及系统发育的传播。

CAMISIM 可以从头生成四种类型的模拟宏基因组样本:

个体模拟宏基因组样本：使用从对数正态分布上取样的分类学图谱
模拟宏基因组样本的时间序列：使用从具有高斯噪声的对数正态分布中取样的分类学轮廓，这是将正态分布添加到连续生成的样本中。
一组复制的模拟宏基因组样本：使用从对数正态分布中取样的分类学轮廓，在原始对数正态值中反复加入高斯噪声。
宏基因组差异丰度样本：使用从对数正态分布上取样的分类学图谱。

Output

CAMISIM 的输出是 fastq 格式的读文件，这些读文件以 BAM 格式映射到使用的基因组，用于装配(fast a)、分类(CAMI 格式)和剖析(CAMI 格式)的“黄金标准”。

Resources

包含了 NCBI 分类法的数据库转储，可以从 NCBI FTP-Server 下载当前版本。

Genomes

如果社区设计应从头开始，则需要以 Fasta 格式的基因组进行采样。否则他们会从 NCBI 下载完整的基因组。

De novo 社区设计需要运行三个文件:

一个文件包含，制表符分隔，基因组标识和该路径的文件的基因组。
一个文件，包含，制表符分隔，基因组标识符和该路径的基因组注释。这个是用来模拟基于基因组的菌株
一个[[元数据文件 | 元数据文件格式] ，包含，标签分隔和头，基因组标识符，新颖性分类，分配和分类分类。

至少需要以下文件: “ nodes.dmp”、“ merged.dmp”、“ names.dmp”

USAGE

from_profile

python metagenome_from_profile.py -p defaults/mini.biom

or de novo:

python metagenomesimulation.py defaults/mini_config.ini

要检查 CAMISIM 是否正常工作，可以使用上面的第二个命令执行测试运行:

Metagenome simulation

可以使用现有的16S rRNA 谱或从头创建多种模拟宏基因组数据集: 单个样本，差异丰度或具有不同插入大小和复杂性的时间序列数据集。所有数据集都可以模拟为来自 Illumina HiSeq 或其他机器以及其他技术(如 ONT 或 PacBio)的配对末端测序和错误率。为了生成数据集及其样本，采取了以下步骤:

在基因组数据验证(步骤1)之后，根据指定的标准或给定的分类概况(步骤2)和模拟的宏基因组数据集(步骤3)设计群落组成。黄金标准的创建(步骤4)代表了流水线的最后一部分。

Step 1. Data preprocessing and validation

对于从头宏基因组模拟，所有短于1000个碱基对的序列都从提供的基因组组装中删除，并且经过验证只包含有效性状的序列。输入的基因组可以是 Fasta 格式的基因组草稿，因此在碱基 ACGT 旁边包含模糊的 DNA 特征，如“ RYWSMKHBVDN”。

: admin
: 联系作者

快捷入口: 测序数据模拟思维导图浏览PDF 下载PDF

分享到：

标签

Abstract
Usage
Output
Resources
- Genomes
USAGE
- from_profile
- or de novo:
Metagenome simulation
- Step 1. Data preprocessing and validation

Github开源生信云平台 DEMO