MetAMOS:一个模块化、开源的宏基因组组装和分析管道

最后发布时间:2023-06-24 12:55:10 浏览量:

Abstract

我们描述了MetAMOS,一个开源和模块化宏基因组组装和分析管道。MetAMOS代表着迈向全自动宏基因组分析的重要一步,从下一代测序读数开始,生产基因组支架、开放阅读框架和分类或功能注释。MetAMOS可以帮助减少组装宏基因组样本时常见的组装错误,并提高分类分配的准确性,同时降低计算成本。MetAMOS可从以下网址下载:https://github.com/treangen/MetAMOS

宏基因组学为对环境中采样的微生物群落(例如,海洋调查[1-3]、南极探险[4],甚至医疗保健设施[5])以及活体[6]和人体[7-11]进行前所未有的研究打开了大门。高通量测序技术的最新进展使这些研究成为可能,这些技术彻底改变了个体基因组的研究,例如最近重建数千人基因组的努力[12]。虽然测序技术一直在快速改进,但分析所得数据所需的计算基础设施在适应所生成数据的数量和特征方面进展缓慢。特别是,基因组组装,尽管近年来得到了显著改善[13],但即使对单个生物体来说,仍然是一个重要的挑战。在宏基因组项目中,传统的基因组组装者很难解开密切相关的菌株,也很难区分真正的多态性和测序错误。因此,许多研究人员放弃了组装,而是将分析直接集中在潜在的读数上[14-22]。虽然这些方法已经显示出前景,但当应用于通过组装重建的基因组重叠群时,基因发现和分类分类等分析任务变得容易得多。因此,许多专门针对宏基因组从头组装的计算工具已经开始出现[23-26]。然而,这些工具仍处于初级阶段,其应用受到许多因素的限制,例如:(i)应用于大型宏基因组数据集时的性能问题;(ii)为了优化装配结果,需要仔细的参数调整;以及(iii)缺乏与宏基因组分析管道的其他组成部分的整合。此外,鉴于缺乏宏基因组参考数据集,以及当前宏基因组项目的数据特征大相径庭,很难确定单个组装工具的相对优缺点。

同样重要的是要强调,组装只是宏基因组项目中通常进行的许多其他生物信息学分析之一,包括分类分类、基因注释、变异分析等。执行这些任务需要安装、集成和调整多个软件包,即使对于具有广泛生物信息学专业知识的群体来说,这也不是微不足道的。因此,大多数研究都依赖于基于自定义脚本和密集手动分析的临时管道,这使得复制或扩展分析结果变得困难,并阻碍了协作

为了应对这些挑战,我们开发了MetAMOS,这是一个用于宏基因组组装和分析的模块化和可定制框架。对于没有生物信息学专业知识的研究人员,MetAMOS为宏基因组数据集的分析提供了一个按钮解决方案,而与所使用的测序技术无关。除了实际组装外,MetAMOS还输出群落的分类概况、基因预测和潜在的基因组变异。从某种意义上说,MetAMOS可以被视为QIME[27]和mothur[28]的以组装为中心的对应物,这两种常用的管道用于分析16S rRNA数据。对于生物信息学家来说,MetAMOS提供了一个模块化和灵活的管道,集成了许多宏基因组分析工具,这些工具可以定制和扩展以满足特定的分析需求。

Overview of the MetAMOS analysis pipeline

MetAMOS软件包是在轻量级工作流系统Ruffus[29]的帮助下,围绕一系列公开可用的组装和分析工具构建的。当前的分析工作流程和可用的软件包如图1所示,并在下面的工作流程部分进行详细讨论。然而,重要的是要强调,这些工具并不是简单地串在一起形成临时管道;相反,整个管道是围绕宏基因组架子工Bambus 2[30]提供的独特特征构建的。

管道大致可分为三个主要部分。第一个步骤包括预处理步骤,旨在使用所用测序技术特有的软件构建保守重叠群的集合(目前支持Sanger,454和Illumina数据)。具体而言,预处理包括以下步骤:(1)基于读取映射的动态文库大小重新估计,以及(2)重叠群清理(去除缺乏读取映射的重叠群)。在第二步中,Bambus 2用于鉴定基因组重复,构建初始重叠群,纠正组装错误,扩展重叠群,并检测基因组变异。在第三个支架后阶段,使用支架感知方法进一步分析和注释重叠群,例如将分类标签传播到支架内连接在一起的所有重叠群。因此,Bambus 2生成的脚手架信息使我们能够整合多个信息源,并获得更准确的注释

我们的软件包与SmashCommunity[31]有相似之处,后者是一个针对454和Sanger数据的宏基因组分析管道。与MetAMOS不同,SmashCommunity只支持一小部分组装和分析工具(Arachne[32]、Celera Assembler[33,34]、Forge和MetaGeneMark[35])。然而,更重要的是,SmashCommunity只是将各个分析工具链接在一起,并没有提供通过集成不同分析而实现的额外功能。出于这些原因,我们决定围绕AMOS开源基因组组装框架构建MetAMOS,而不是建立在SmashCommunity的基础上,该框架已经包括许多以组装为中心的分析实用程序[30,36-41]。

Results

下面我们展示了MetAMOS的使用,并将其性能与其他可以和已经用于宏基因组分析的软件工具进行了比较。我们将分析重点放在几个具有互补特征的数据集上:来自人类微生物组项目(HMP)[11]的“模拟”宏基因组群落,以及来自HMP和人类肠道宏基因组学(MetaHIT)[42]项目的真实宏基因组样本。模拟群落(下文将更详细地描述)包括已知的生物体混合物,并为评估不同组装工具的准确性提供了宝贵的资源。真实的数据集是最近研究的数据样本,展示了我们工具的实用潜力。

HMP mock communities

Assembly analysis

由于缺乏“黄金真理”参考,在真实的宏基因组样本上获得的结果很难评估。因此,为了首先比较和评估宏基因组组装的准确性,我们依赖于具有已知组成的宏基因组样本,特别是HMP联盟创建的两个“模拟”群落[43,44]。这些群落代表了对来自具有已知基因组序列的生物体的定量DNA片段的混合物进行测序的结果,包括50多个细菌基因组和一些真核生物。虽然并非没有限制,但与纯模拟数据相比,该数据集具有优势,因为它捕捉到了测序技术引入的误差和偏差。

来自两个HMP模拟社区的数据可用:偶数和交错(NCBI生物项目ID 48475)。这些模拟群落中的参考基因组是精确已知的,丰度是相当众所周知的,读数是用Illumina GAII仪器测序的[45]。我们用MetaPhyler独立证实了模拟偶数和交错群落的不同丰度分布;图3显示了MetAMOS输出的这些样本的交互式Krona[46]图表。

使用这些数据集,我们评估了八种不同方法的性能:SOAPdenovo(SOAPdenovo-contigs)、SOAPdenovo_MA(MetAMOS+SOAPdenovo unitings)、Meta-IDBA、Meta-IDBA _MA(MetAMOS+Meta-IBA contigs,MetaVelvet、MetaVelvet_MA(MetAMOS+Velvet unitings)。后缀为“_MA”的方法表示特定汇编程序的使用在MetAMOS框架内,特别是生成初始的高置信度重叠群,然后用Bambus 2和MetAMOS提供的其他公用设施对其进行脚手架搭建和进一步分析。单位是基因组的一部分,组装者可以在单独读取的基础上明确地重建(完全包含在独特区域或重复中),也就是说,不跨越重复和独特区域之间边界的区域