有两种方法:推荐unoise3去噪获得单碱基精度ASV,传统的97%聚类OTU (属水平精度)供备选usearch两种特征挑选方法均自带de novo去嵌合体-minsize二次过滤,控制OTU/ASV数量至3-5千,方便下游统计分析
97%聚类OTU,适合大数据/ASV规律不明显/reviewer要求结果耗时1s, 产生508 OTUs, 去除126 chimeras
usearch -cluster_otus temp/uniques.fa -minsize 10 \ -otus temp/otus.fa \ -relabel OTU_
ASV去噪 Denoise: predict biological sequences and filter chimeras6s, 1530 good, 41 chimeras, 序列百万条可能需要几天/几周
usearch -unoise3 results/raw/uniques.fa -minsize 10 -zotus results/raw/zotus.fa
zotus.fa
cat results/raw/zotus.fa |less -S >Zotu1 GTAGTCCACGCCGTAAACGGTGGGCGCTAGATGTGGGGACCTTCCACGGTTTCTGCGTCGCAGCTAACGCATTAAGCGCC CCGCCTGGGGAGTACGGTCGCAAGACTAAAACTCAAAGGAATTGACGGGGGCCCGCACAAGCGGCGGAGCATGTTGCTTA ATTCGACGCAACGCGAAGAACCTTACCAAGGCTTGACATCGCCGGAAAACTCGCAGAGATGCGGGGTCCTTTTGGGCCGG TGACAGGTGGTGCATGGCTGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCTCGTTCT ATGTTGCCAGCACGCCCTTCGGGGTGGTGGGGACTCATAGGAGACTGCCGGGGTCAACTCGGA >Zotu2 GTAGTCCACGCCCTAAACGATGTCAACTGGTTGTTGGGAGGGTTTCTTCTCAGTAACGTAGCTAACGCGTGAAGTTGACC GCCTGGGGAGTACGGCCGCAAGGTTGAAACTCAAAGGAATTGACGGGGACCCGCACAAGCGGTGGATGATGTGGTTTAAT TCGATGCAACGCGAAAAACCTTACCTACCCTTGACATGTCTGGAATCCTGAAGAGATTTGGGAGTGCTCGAAAGAGAGCC AGAACACAGGTGCTGCATGGCCGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCTTGT CATTAGTTGCTACGAAAGGGCACTCTAATGAGACTGCCGGTGACAAACCGGA
修改序列名:Zotu为改为ASV方便识别
sed 's/Zotu/ASV_/g' results/raw/zotus.fa > results/raw/otus.fa
otus.fa
>ASV_1 GTAGTCCACGCCGTAAACGGTGGGCGCTAGATGTGGGGACCTTCCACGGTTTCTGCGTCGCAGCTAACGCATTAAGCGCC CCGCCTGGGGAGTACGGTCGCAAGACTAAAACTCAAAGGAATTGACGGGGGCCCGCACAAGCGGCGGAGCATGTTGCTTA ATTCGACGCAACGCGAAGAACCTTACCAAGGCTTGACATCGCCGGAAAACTCGCAGAGATGCGGGGTCCTTTTGGGCCGG TGACAGGTGGTGCATGGCTGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCTCGTTCT ATGTTGCCAGCACGCCCTTCGGGGTGGTGGGGACTCATAGGAGACTGCCGGGGTCAACTCGGA >ASV_2 GTAGTCCACGCCCTAAACGATGTCAACTGGTTGTTGGGAGGGTTTCTTCTCAGTAACGTAGCTAACGCGTGAAGTTGACC GCCTGGGGAGTACGGCCGCAAGGTTGAAACTCAAAGGAATTGACGGGGACCCGCACAAGCGGTGGATGATGTGGTTTAAT TCGATGCAACGCGAAAAACCTTACCTACCCTTGACATGTCTGGAATCCTGAAGAGATTTGGGAGTGCTCGAAAGAGAGCC AGAACACAGGTGCTGCATGGCCGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCTTGT CATTAGTTGCTACGAAAGGGCACTCTAATGAGACTGCCGGTGACAAACCGGA