Title : Strain profiling and epidemiology of bacterial species from metagenomic sequencing
Publish Date : 2017-12-22 00:00:00.0
Zotero Link: zotero://select/library/items/K53BBFVF

宏基因组测序中细菌种类的菌株图谱和流行病学

微生物群落通常由同一物种的多种菌株的复杂混合物组成,具有广泛的基因组和表型变异性。能够识别、量化和分类样本中存在的不同菌株的计算方法对于充分利用宏基因组测序在微生物生态学中的潜力至关重要,其应用范围从传染病流行病学到微生物定殖动力学的表征。在这里,我们提出了一种计算方法,使用可用的基因组数据从宏基因组测序中重建复杂的菌株图谱量化不同菌株的丰度,并根据物种的种群结构对其进行编目。我们在合成数据集上验证了该方法,并将其应用于真实样本中几种重要细菌的菌株分布特征,展示了其应用如何为微生物群的结构和复杂性提供新的见解。

介绍

下一代测序技术首次提供了以独立于培养物的方式研究人类和环境样本中复杂微生物群落组成的可能性。由于这些技术提供的大量数据,现在人们普遍认为微生物群在维持宿主健康中发挥作用,宿主和定殖微生物群之间平衡的改变与许多疾病有关。然而,为了充分利用宏基因组学在临床和流行病学应用中的潜力,考虑到同一物种菌株之间的表型和基因组变异性很高需要能够以超出物种水平的分辨率来描述微生物群落的计算技术,因为同一物种的菌株之间具有高度的表型和基因组变异性。

广泛使用的基于标记(marker-based)的计算方法,使用从完整和草稿基因组序列数据库中提取的基因组标记,对宏基因组样本的分类组成进行分析。尽管能够达到菌株水平的敏感性,这些方法基于一个隐含的假设,即每个物种都存在一个单一的优势菌株,而已经表明,与人类相关的微生物群通常是同一物种的密切相关菌株的复杂混合物。在这些情况下,基于标记的方法可能预测由不相关序列重叠产生的嵌合菌株。作为使用存在-不存在图谱的替代方案,最近引入了一种使用一组通用标记基因多态性模式的无参考方法,在没有参考基因组的情况下,在特征较差的物种的情况下提供有用的见解。然而,为了实现其最佳性能,该方法需要分析相关样本的大数据集(例如,时间序列)。最近,有人提出了一种统计方法,可以通过对序列读数的测量分布进行建模,将同一物种的菌株混合物区分开来。在这些方法中,没有试图提供与相关细菌物种的种群结构的联系,从而限制了它们在已知、潜在致病物种的流行病学中的应用。此外,当参考数据库包含许多密切相关的序列时,缺乏参考基因组的预处理步骤可能会影响它们的分辨率。

在这里,我们介绍了StraineEst,这是一种基于参考的新方法,它使用选定物种可用基因组的单核苷酸变异(SNV)图谱来确定共存菌株的数量和身份,以及它们在混合宏基因组样本中的相对丰度。StraineEst没有提供一个同时表征所有物种的通用工具,而是通过对SNV图谱的聚类来定义感兴趣的物种的种群结构。通过使用惩罚优化程序来解开单个成分,StraineEst识别并量化样本中感兴趣物种的所有菌株,提高了当前菌株识别方法的分辨率。此外,通过使用代表性基因组序列的预定义数据库对这些成分进行分类,StraineEst允许汇编大型荟萃分析,包括来自无关研究的样本,并为宏基因组学在流行病学研究中的广泛应用奠定了基础。

结果

基因组预处理和数据库准备

生信小木屋

对于每一个感兴趣的物种,我们从NCBI数据库下载了所有可用的完整和草稿基因组序列(see Fig. 1a and Methods section)。为了消除虚假序列,对基因组数据库进行过滤,丢弃与该物种的NCBI型菌株差异过大的序列,并进行聚类,以减少密切相关基因组的冗余(see Methods section)。

计算核心基因组和参考SNV图谱