宏基因组组装策略

最后发布时间 : 2025-05-04 13:12:07 浏览量 :

我有200个来自口腔和粪便的宏基因组测序样本,

当单个样本的reads较多时(测序深度足够),与共同组装读数数据集相比,单独组装和去复制可产生更多和更高质量的基因组,单独组装的缺陷时无法重建低丰度基因组。

  1. 对每个数据集(共 114 个)分别进行处理(组装、分仓、细化等),最后从所有样本的分仓组装中去除多余(相同)的分仓;
  2. 将同一季节的样本(每个季节约 28 个样本)作为一个数据集进行处理,并最终从四季样本的分类组合中去除冗余(相同)的分类组合;
  3. 将所有样本作为一个数据集进行处理。

在可能的情况下,共同组装通常会更好,但并非适用于所有应用。就你的情况而言,我会先用 metahit 试试方案 3,看看它在计算上是否可行。如果不可行,我就会选择方案 2,但使用随机样本子集(例如,每次 100Gb 的序列数据)。我之所以避免将各季的数据分开,是因为你的分区会偏向于从样本中回收的菌株,这将影响你的丰度估计。例如,从春季样本中提取的蓝细菌分类单元与从夏季样本中提取的同一物种会略有不同,而这些分类单元的丰度估算值在其组合的样本中会略微偏高。