我有200个来自口腔和粪便的宏基因组测序样本,
当单个样本的reads较多时(测序深度足够),与共同组装读数数据集相比,单独组装和去复制可产生更多和更高质量的基因组,单独组装的缺陷时无法重建低丰度基因组。
在可能的情况下,共同组装通常会更好,但并非适用于所有应用。就你的情况而言,我会先用 metahit 试试方案 3,看看它在计算上是否可行。如果不可行,我就会选择方案 2,但使用随机样本子集(例如,每次 100Gb 的序列数据)。我之所以避免将各季的数据分开,是因为你的分区会偏向于从样本中回收的菌株,这将影响你的丰度估计。例如,从春季样本中提取的蓝细菌分类单元与从夏季样本中提取的同一物种会略有不同,而这些分类单元的丰度估算值在其组合的样本中会略微偏高。