宏基因组 | 菌株追踪 、分析菌株转移

最后发布时间 : 2025-06-04 10:46:53 浏览量 :

文献资料

分析口腔到肠道的菌株转移

使用定制的物种级基因组箱(SGB)标记数据库,使用StrainPhlAn 4进行菌株级分析,参数为“--marker_in_n_samples 1 --sample_with_n_ markers 10 --phylophlan_mode accurate --mutation_rates”。MetaPhlAn 4在所有口腔样本中检测到的所有SGBs都被纳入检测,以检测口腔到肠道传播的发生情况。然后,口腔到肠道传播事件被定义为在同一时间点收集的同一个体的唾液和肠道样本对,其系统发育距离低于某个SGB的菌株身份阈值(在线补充表6)。我们最终选择0.03作为StrainPhlAn推荐的菌株身份阈值,但也检查了更严格的菌株身份门槛(例如0.01),我们的研究结果仍然稳健(在线补充图2)ref

在线补充表6: 用 StrainPhlAn 计算的同一个体唾液和肠道样本中各物种级基因组区段(SGB)的系统发生距离。

在线补充表6: 用 StrainPhlAn 计算的同一个体唾液和肠道样本中各物种级基因组区段(SGB)的系统发生距离。

在线补充图2

在线补充图2

这里主要使用StrainPhlAn计算同一个体两个样本之间的系统发育树距离ref,其做法如下:

  1. 通过将所有样本与MetaPhlAn数据库进行比对,获得它们的SAM文件
for f in fastq/SRS*
do
    echo "Running MetaPhlAn on ${f}"
    bn=$(basename ${f})
    metaphlan ${f} --input_type fastq -s sams/${bn}.sam.bz2 --bowtie2out bowtie2/${bn}.bowtie2.bz2 -o profiles/${bn}_profiled.tsv
done
  1. 生成consensus-marker,这些文件是StrainPhlAn的输入
sample2markers.py -i sams/*.sam.bz2 -o consensus_markers -n 8

对于每个样本,提取比对到MetaPhlAn marker上的序列,这些序列是与MetaPhlAn marker对齐的序列

[{'marker': 'SGB1877__KPHFPOOP_02423',
  'breath': 88.19875776397515,
  'sequence': '--------------------CCCGATAATCAGCCTTTTGGC*ATGTC*GT*TTTG*ATTTATCTCTTGTGACGATTCGGATAG*GATACCACTAAGCCGGTGATTGAACTGCACGAACCCGAAGAAGGGCAAGCGCTGAAAATAGGAAGTGAATACGGCGTGCATTTTGAAATGGATCTGTCGGACGACGTGATGTTGAAGTCGTATATGATTGAAATACACAGCAACTTCGATCACCATTCGCATGGAAAAAGCAGGGTTGCCGGAGAAACTGTCGATTTCAGCTTCAACAAGTCTTATGATATTTCCGGAAAGAAAGCGGCACATATTCATCATCATGATATTATGATTCCGAAAGATGCAACTCCGGGAGATTATCATTTAATGGTTTATTGCACGGACGCTGCAGGAAACGAGACGTATGTTGCCCG---TATCG--T-----AA-GATGTA-A-G-AGAA------------------'},
 {'marker': 'SGB1877__JFKDGIDB_01833',
  'breath': 99.32998324958123,
  'sequence': 'TT**T*AAGTTGCCAATTATAAATCGAATTTTTCCTTCGTACAAATCGAAGATAATAGCTGTCATTGTTACCGGCGTTATCGTGGGCGGAGGAGTTTTATTTATGTATATGCTTCGGGCACATACATATTTGGGAGATGATCCGGCAGCATGTGTGAATTGCCATATCATGTCTCCTTATTATGCAACCTGGTTTCATAGTTCGCATGCCCGGGATGCTACTTGTAATGACTGTCATGTTCCTCACGAAAACGCGGTAAAGAAGTGGACATTCAAGGGGATTGACGGAATGAAGCACGTAGCGGCGTTTCTCACGAAAAGTGAGCCGCAGGTGATACAGGCACACGAAGCCAGTTCGCAAGTGATTATGAATAACTGTATCCGTTGCCATACACAACTGAATACGGAGTTTGTGAAGACGGGAAAGATAGATTATATGCTGTCGCAAGTAGGAGAAGGAAAGGCTTGTTGGGATTGTCACC*CGATGTCCCTCATGGCGGGAAGAACTCGCTGTCCACGGCTCCGGGAGCTATTGTACCGCTTCCCGAATCGCCCGTGCCGGAATGGCTCCAAAAAATGATAGATAATAAAGAATAT'
  },
  .....
]
  1. 从MetaPhlAn数据库中提取特定物种或SGB的marker
extract_markers.py -c t__SGB1877 -o db_markers/

后续构建系统发育树是所有样本特定物种的多序列比对

>SGB1877__FHNOMNMD_02167 UniRef90_R5UVX9;k__Bacteria|p__Bacteroidetes|c__Bacteroidia|o__Bacteroidales|f__Bacteroidaceae|g__Bacteroides|s__Bacteroides_caccae|t__SGB1877;ZeeviD_2015__PNP_Main_212__bin.37
ATGAAATATTTTAAAAGATTAATGATAACGCTATGTACAGCGTTCTACTTTTGCCTGTCC
...
CCATTAATGGATCAGAATCCGGGTTGGGATAATTAA
>SGB1877__GCCPIPMK_01586 UniRef90_A0A174V9L9;k__Bacteria|p__Bacteroidetes|c__Bacteroidia|o__Bacteroidales|f__Bacteroidaceae|g__Bacteroides|s__Bacteroides_caccae|t__SGB1877;ZeeviD_2015__PNP_Main_212__bin.37
ATGAGCAAAATAACCATACAAAAAGATAGTACGCTATTAGTGCCTGATGTGCCTACCGTA
....
CTCTCAACCACAGATTTCACCCGTGAAATAGTGGAAAGAATCGAAAAATAA
  1. 构建多序列比对和系统发育树
strainphlan -s consensus_markers/*.pkl \
  -m db_markers/t__SGB1877.fna \
  -r reference_genomes/G000273725.fna.bz2 \
  -o output -n 8 -c t__SGB1877 --mutation_rates
(SRS064276:0.00080171770727787523,(((SRS013951:0.03386040766327552687,SRS019161:0.00000100000050002909):0.00492517925703376148,G000273725:0.01529736712188993486):0.04364238799007998104,(SRS055982:0.09582946441156074691,SRS022137:0.00000100000050002909):0.10092071218572669367):2.24437779880525933862,SRS014613:0.00124177048223493114):0.0;