Background: 微生物组领域研究人员面临的主要挑战之一是将下一代测序(NGS)平台产生的大量读数转化为生物学知识。保证再现性(reproducibility)、可重复性(repeatability)和结果来源的有效分析工作流程是现代微生物组研究的基本要求。近十年来,已经开发了几种最先进的生物信息学工具来了解生活在给定样本中的微生物群落。然而,这些工具中的大多数都包含许多功能,这些功能需要深入了解它们的实现,并选择其他工具来可视化最终输出。此外,微生物组分析可能很耗时,甚至可能需要一些研究人员可能缺乏的更高级的编程技能。Results: 我们开发了一个名为iMAP(集成微生物组分析管道)的包装器,为微生物组研究界提供了一个用户友好且便携的工具,该工具集成了生物信息学分析和数据可视化。iMAP工具包含元数据分析(metadata profiling)、读取质量控制(quality control of reads)、序列处理(sequence processing)和分类以及操作分类单元多样性分析的功能。该管道还能够生成基于网络的进度报告,以增强一种称为“随用随检”(RAYG)的方法。在大多数情况下,微生物群落的分析是使用Mothur或QIIME2平台中实现的功能完成的。此外,它还使用不同的R包来生成图形,并使用R-markdown来生成进度报告。我们使用了一个案例研究来演示iMAP管道的应用。Conclusions:iMAP管道集成了多种功能,可更好地识别给定样本中存在的微生物群落。该管道执行深入的质量控制,保证高质量的结果和准确的结论。管道产生的生动视觉效果有助于更好地理解复杂和多维的微生物组数据。综合RAYG方法能够生成基于网络的报告,为研究人员提供可以逐步审查的中间输出。深入分析的案例研究为微生物组数据分析建立了模型。
用于实现iMAP管道的代码包含单独包装在驱动程序脚本中的命令包,用于执行探索性分析、读取的预处理、序列处理和分类、OTU聚类和分类分配、初步分析以及微生物组数据的可视化(图1)。该管道转换从主要分析步骤获得的输出,以提供适合进行探索性可视化和生成进度报告的数据结构。
iMAP存储库中包含的README文件中提供了实现iMAP管道的详细指南。所有用户数据文件都必须放置在指定的文件夹,在整个分析过程中必须保持不变。
重复微生物组数据分析的能力至关重要。缺乏适当的实验设计、实验的复杂性、对可用管道的不断更新、缺乏记录良好的工作流程以及依赖于无法访问或过时的代码,加速了鲁棒性和可重复性方面的挑战。本手稿中描述的iMAP预发布版本(iMAP v1.0)尚处于初步阶段,与Nextflow[19]、NextflowWorkbench[20]或Snakemake[21]等现代生物信息学工作流管理系统相比,它可能缺乏显著的可重复性。在当前状态下,用户将能够遵循README文件中提供的指导方针,并交互式地重用相关代码,包括嵌套的bash和可视化脚本,以实现类似的结果。为了确保iMAP管道的可复制性、可移植性和可共享性,我们创建了Docker镜像,以解决包括软件安装和不同版本的R包在内的依赖关系。使用Docker镜像可以让用户更容易地部署iMAP并使用容器运行所有分析。README文件中提供了如何使用Docker的说明。iMAP管道还附带了用于16S rRNA基因序列分类的mothur和QIIME2 Docker图像。
iMAP的未来可持续性和可重复性在很大程度上取决于使用完善的工作流管理系统来提供快速舒适的执行环境,这也可能会提高可用性。长期目标是自动化大多数交互步骤,并将管道与定义跨多个平台部署规则的代码集成,而无需任何修改。
对元数据(附加文件1:表1)进行了初步分析,以探索实验变量并找出任何不一致或缺失的值。结果被自动汇总到基于网络的进度报告1(附加文件2)中。研究的主要变量是性别(雌性和雄性)、根据断奶后天数(DPW)分组的时间范围(早期和晚期)(图2)。审查报告使我们能够检查输入数据,发现样本编码中的不一致和缺失数据。在进一步分析之前,样本标识符被统一地重新编码为六个数字,例如F3D1、F4D11、M4D145到F3D001、F4D011、M4D1四十五。在后续分析中,我们将数字类别变量(DPW)定义为因子,并对其进行统一编码,如元数据文件(表1)中的DayID列所示。