展开

聚类OTU/去噪ASV Cluster or denoise

最后发布时间 : 2022-11-04 10:51:21 浏览量 :

有两种方法:推荐unoise3去噪获得单碱基精度ASV,传统的97%聚类OTU (属水平精度)供备选
usearch两种特征挑选方法均自带de novo去嵌合体
-minsize二次过滤,控制OTU/ASV数量至3-5千,方便下游统计分析

方法1

97%聚类OTU,适合大数据/ASV规律不明显/reviewer要求
结果耗时1s, 产生508 OTUs, 去除126 chimeras

usearch -cluster_otus temp/uniques.fa -minsize 10 \
    -otus temp/otus.fa \
    -relabel OTU_

方法2

ASV去噪 Denoise: predict biological sequences and filter chimeras
6s, 1530 good, 41 chimeras, 序列百万条可能需要几天/几周

usearch -unoise3 results/raw/uniques.fa -minsize 10 -zotus results/raw/zotus.fa

zotus.fa

cat results/raw/zotus.fa     |less -S
>Zotu1
GTAGTCCACGCCGTAAACGGTGGGCGCTAGATGTGGGGACCTTCCACGGTTTCTGCGTCGCAGCTAACGCATTAAGCGCC
CCGCCTGGGGAGTACGGTCGCAAGACTAAAACTCAAAGGAATTGACGGGGGCCCGCACAAGCGGCGGAGCATGTTGCTTA
ATTCGACGCAACGCGAAGAACCTTACCAAGGCTTGACATCGCCGGAAAACTCGCAGAGATGCGGGGTCCTTTTGGGCCGG
TGACAGGTGGTGCATGGCTGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCTCGTTCT
ATGTTGCCAGCACGCCCTTCGGGGTGGTGGGGACTCATAGGAGACTGCCGGGGTCAACTCGGA
>Zotu2
GTAGTCCACGCCCTAAACGATGTCAACTGGTTGTTGGGAGGGTTTCTTCTCAGTAACGTAGCTAACGCGTGAAGTTGACC
GCCTGGGGAGTACGGCCGCAAGGTTGAAACTCAAAGGAATTGACGGGGACCCGCACAAGCGGTGGATGATGTGGTTTAAT
TCGATGCAACGCGAAAAACCTTACCTACCCTTGACATGTCTGGAATCCTGAAGAGATTTGGGAGTGCTCGAAAGAGAGCC
AGAACACAGGTGCTGCATGGCCGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCTTGT
CATTAGTTGCTACGAAAGGGCACTCTAATGAGACTGCCGGTGACAAACCGGA

修改序列名:Zotu为改为ASV方便识别

sed 's/Zotu/ASV_/g' results/raw/zotus.fa > results/raw/otus.fa

otus.fa

>ASV_1
GTAGTCCACGCCGTAAACGGTGGGCGCTAGATGTGGGGACCTTCCACGGTTTCTGCGTCGCAGCTAACGCATTAAGCGCC
CCGCCTGGGGAGTACGGTCGCAAGACTAAAACTCAAAGGAATTGACGGGGGCCCGCACAAGCGGCGGAGCATGTTGCTTA
ATTCGACGCAACGCGAAGAACCTTACCAAGGCTTGACATCGCCGGAAAACTCGCAGAGATGCGGGGTCCTTTTGGGCCGG
TGACAGGTGGTGCATGGCTGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCTCGTTCT
ATGTTGCCAGCACGCCCTTCGGGGTGGTGGGGACTCATAGGAGACTGCCGGGGTCAACTCGGA
>ASV_2
GTAGTCCACGCCCTAAACGATGTCAACTGGTTGTTGGGAGGGTTTCTTCTCAGTAACGTAGCTAACGCGTGAAGTTGACC
GCCTGGGGAGTACGGCCGCAAGGTTGAAACTCAAAGGAATTGACGGGGACCCGCACAAGCGGTGGATGATGTGGTTTAAT
TCGATGCAACGCGAAAAACCTTACCTACCCTTGACATGTCTGGAATCCTGAAGAGATTTGGGAGTGCTCGAAAGAGAGCC
AGAACACAGGTGCTGCATGGCCGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCTTGT
CATTAGTTGCTACGAAAGGGCACTCTAATGAGACTGCCGGTGACAAACCGGA