Title : Extensive Unexplored Human Microbiome Diversity Revealed by Over 150,000 Genomes from Metagenomes Spanning Age, Geography, and Lifestyle
Publish Date :
Zotero Link: zotero://select/library/items/AQG7ARGN

来自宏基因组的超过 150,000 个基因组揭示了广泛未探索的人类微生物组多样性,这些基因组跨越了年龄、地理和生活方式

  • Species-level genome bins (SGBs)

生信小木屋

In Brief

人类微生物组隐藏着许多不明物种。通过对来自不同种群的样本进行大规模宏基因组组装,我们发现了 >150,000 个微生物基因组,这些基因组被概括为 4,930 个物种。许多物种 (77%) 以前从未被描述过,增加了宏基因组的可映射性,并扩大了我们对全球全人体微生物组的理解。

  • uSGB(3976)+kSGB(1134)=4930个物种
  • 3976/4930=77%
  • uSGB(unknow SGB):现有微生物基因组和此处重建的基因组交集
  • kSGB(know SGB):仅在此处重建的基因组,没有现有分类或宏基因组组装的基因组
  • non-human SGB:仅包含现有基因组而没有来自我们人类微生物组宏基因组组装的基因组
  • 重建了70178+84545=154,723个基因组

Highlights

  • 大规模宏基因组组装发现了数千种新的人类微生物组物种
  • 新的基因组资源将肠道宏基因组的可映射性提高了 87% 以上
  • 一些新发现的物种包含数千个重建的基因组
  • 非西化种群中隐藏着新发现物种的很大一部分

INTRODUCTION

RESULTS

从 ~10,000 个人类宏基因组中回收超过 150,000 个微生物基因组

我们采用了一种非常大规模的宏基因组组装方法来重建填充人类微生物组的细菌和古细菌基因组。来自来自多个人群、身体部位和宿主年龄的 46 个数据集的总共 9,316 个宏基因组(表 S1),以及来自马达加斯加的另一个队列(Golden等人,2017 年)(STAR 方法;表 S1),我们使用单样本组装策略重建了总共 154,723 个基因组(每个基因组由一组成簇的重叠群组成;参见 STAR 方法),该策略旨在最大限度地提高质量而不是从每个样本重建的基因组数量。由此产生的目录极大地扩展了公开可用的 150,000 个微生物基因组集。所有组装的基因组都通过了严格的质量控制,包括完整性的估计、污染和菌株异质性的测量(参见 STAR 方法),并且它们超过了根据最近的指南(Bowers等人,2017 年)(完整性 >50%,污染 <5%)定义为中等质量 (MQ) 的阈值。这些基因组的质量与分离测序的质量相当(STAR 方法;表 S2),并且也与手动策划的宏基因组方法(表 S2)和时间序列或横截面宏基因组联合合并(参见 STAR 方法;表 S2)。基因组可能包括来自质粒的重叠群(参见 STAR 方法),更严格的质量控制将近乎完整的高质量 (HQ) 基因组集减少到 70,178 个,完整性高于 90%,并降低了样本内菌株异质性的可能性(<0.5% 多态性位置,参见 STAR 方法)。HQ 基因组的主要特征是一致的,在某些情况下比公共存储库中提供的参考基因组纲要中的特征更好,尽管 MQ 基因组与 HQ 基因组相比也具有相似的质量评分(模完整性;STAR 方法)。我们重建的基因组集(表 S3;数据和软件可用性)和相关的 285 万 (M) 功能注释(STAR 方法;因此,图 S1) 适合作为更深入的微生物群落分析的基础。

人类微生物组基因组属于 ~5,000 个功能注释的 SGB

为了将 154,723 个基因组组织成物种水平的基因组箱 (SGB),我们采用了全对全遗传距离量化,然后对跨越 5% 遗传多样性的基因组箱进行聚类和鉴定,这与已知物种的定义一致(参见 STAR 方法)和其他报告(Jain et al., 2018)。我们从 22 个已知门获得了 4,930 个 SGBs(图 1A;表 S4)。这可能是对门水平总多样性的低估,因为一些 SGB 与所有以前可用的参考基因组非常不同,无法自信地分配给分类科(表 S4):345 个 SGB(其中 58% 具有 HQ 或多个重建基因组)显示超过 30% 的 Mash 估计遗传距离(Ondov等人,2016 年)与最近的具有门分配的分离株(图 S2A)。SGB 基因组目录平均跨越 3.0%,SD 1.8% 的 SGB 内核苷酸遗传变异性,每个 SGB 包含来自不同个体的多达 3,457 个基因组(平均 31.4 个,SD 147.6 个;图 1C 和 S2B)。

4,930 个 SGBs从 9,428 个元分析的全体宏基因组中组装而成

4,930 个 SGBs从 9,428 个元分析的全体宏基因组中组装而成

  • (A) 来自每个物种水平基因组 bin (SGB) 的代表性基因组的人类相关微生物系统发育。图 S3A 报告了相同的系统发育,但包括在人类相关宏基因组中未发现的分离基因组。
  • (B) 包含现有微生物基因组(包括其他宏基因组组装)和此处重建的基因组 (kSGB) 的 SGB、仅在此处重建的基因组而没有现有分离或宏基因组组装基因组 (uSGB) 的 SGB,以及仅包含现有基因组而没有来自我们人类微生物组宏基因组组装的基因组(非人类 SGB)的 SGB 的重叠。
  • (C) 许多 SGB 不包含来自测序分离株或公开可用的宏基因组组装体 (uSGB) 的基因组。仅显示包含 >10 个基因组的 SGB。
  • (D) uSGBs 和 kSGBs 的分数与 SGB 大小的函数(即 SGB 中的基因组数量)。
  • (E) 按年龄类别、身体部位和生活方式划分的每个样本中 uSGB 分数的分布。
  • (F) 每项研究中 uSGB 分数的分布。

重建的基因组和 SGB 增加了人类微生物组的多样性和可映射性

我们确定了 3,796 个 SGB(即总数的 77.0%),涵盖了未探索的微生物多样性,因为它们代表了没有任何来自分离测序或先前宏基因组组装的公开可用基因组的物种(图 1B 和 S3A)。这些 SGB,我们命名为未知 SGB (uSGB),平均包括9.0,SD 45.4 重建基因组,其中 1,693 个 (45%) 至少有一个 HQ 基因组。SGBs 代表在属和科水平遗传差异的递归聚类(参见 STAR 方法)为 75.2% 的 uSGBs 提供了分类背景,其中 1,472 个分配给属,1,383 个分配给科(表 S4)。由于全基因组相似性估计的限制,未放置在家系水平的 941 个 uSGBs 仍未分配,但我们报告了最接近匹配菌株的相似性和分类学。

在 4,930 个 SGB 中,只有 1,134 个代表至少部分已知的 SGB (kSGB),其中包括公共数据库中的一个或多个基因组。这个 kSGB 的数量与我们在同一组宏基因组中至少发现一次的 1,266 个物种一致(Pasolli等人,2017 年),使用基于参考的分类学分析(Truong等人,2015 年)以 >0.01% 的丰度。大多数 uSGB 代表相对罕见的人类相关微生物(46.7% 的 uSGB 仅包含一个重建的基因组,表 S4,uSGB 中 46.1% 的基因组相对丰度为 <0.5%,STAR 方法和表 S4),但一些 uSGB 非常普遍,在重建基因组数量最多的 100 个 SGB 集中有 10 个 uSGB(图 1C、1D 和 S2B),uSGB 中的 368 个基因组占 >10%。由于许多 uSGB 与特定的样本类型(例如,口腔或非西化样本,图 1E)相关,因此它们包含的可能冗余基因组的实际数量可能被低估了这些样本可用的宏基因组相对较少的类型。uSGB 基因组的功能注释仅将 UniRef90 簇分配给 31.9% 的基因,而 kSGB 基因组的注释率增加到 81.0%。

人类相关古细菌和细菌门的多样性通过 uSGBs 扩展

许多分支,包括一些门,被属于没有沉积基因组序列或分类标签 (uSGB) 的物种的重建基因组大大扩展。例如,候选菌门糖菌门(以前称为 TM7)包含特别难以培养的口腔微生物组成员(He等人,2015 年;Solden等人,2016 年)。对于这个分支,我们从 108 个 SGB 中重建了 387 个基因组(图 1A),其中一些代表仅使用 16S rRNA 基因测序观察到的成员(Brinig 等人,2003 年;Segata 等人,2012a)。分离参考基因组仅适用于该分支中的单个 SGB (ID 19849);该门的其他 16 个参考基因组在口腔宏基因组中未检测到(图 S3B)。因此,107 个糖藻 uSGBs 表明该门的人类相关成员的多样性明显采样不足。在 33% 的口腔样本中,这 108 个 SGB 的至少一个基因组的出现也证实了它的重要性,在那里它们可以达到 3% 以上的平均丰度(表 S4)和超过 10% 的最大丰度。

我们进一步恢复了 675 个古细菌基因组(来自 6 个 kSGBs 的 526 个,来自 13 个 uSGBs的 149 个,图 1A)并重建了其系统发育(图 S3C)。这些基因组中超过一半 (n = 487) 属于史密斯甲烷短杆菌 kSGB (ID 714),其丰度相对较低 (平均 1.06%,SD 1.26%)。鉴定出一个相关但不同的 SGB,包括 94 个基因组 (ID 713,与 M. smithii 分离基因组的核苷酸差异 5.6%),丰度相当 (平均 0.92%,SD 2.02%),但它明显占一些肠道样本中所有读数的 20%。在 uSGBs 中,我们还重建了分配给热等体 (ID 376, 378, 380, 381)、嗜甲烷甲烷菌 (ID 372, 382, 384)、甲烷菌属 (ID 362, 364) 和甲烷菌属 (ID 697) 的基因组,它们都与最近的参考基因组相距甚远 (平均 22.4%,SD 4.0% 核苷酸距离)。这种扩大的与人类相关的古细菌多样性表明,在这个生态系统中存在几种尚未表征的古细菌,这些古细菌具有潜在的独特功能相关性。

几个普遍的未表征的肠道梭状芽胞杆菌分支在系统发育上出现在瘤胃球菌和粪杆菌之间

样品特异性菌株回收大大扩大了关键肠道微生物的泛基因组

一些 uSGB 和亚种与非西化种群密切相关