展开

特征表构建

最后发布时间 : 2022-11-04 10:42:06 浏览量 :

OTU和ASV统称为特征(Feature),它们的区别是:
OTU通常按97%聚类后挑选最高丰度或中心的代表性序列;
ASV是基于序列进行去噪(排除或校正错误序列,并挑选丰度较高的可信序列)作为代表性序列

filtered.fa

cat  results/raw/filtered.fa   |less -S
>KO1.1
GTAGTCCACGCCCTAAACGATGTGTGCTGGGCGTCGGGGGGCTTGCCCCTCGGTGCCGGAGCCAACGCGGTAAGCACACC
GCCTGGGGAGTACGGCCGCAAGGTTAAAACTCAAAGGAATTGACGGGGGCCCGCACAAGCGGCGGAGCATGTTGCTTAAT
TCGACGCAACGCGAAGAACCTTACCAAGGCTTGACATCGCCGGAAAACTCGCAGAGATGCGGGGTCCTTTTGGGCCGGTG
ACAGGTGGTGCATGGCTGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCTCGTTCTAT
GTTGCCAGCACGCCCTTCGGGGTGGTGGGGACTCATAGGAGACTGCCGGGGTCAACTCGG
>KO1.2
GTAGTCCACGCCGTAAACGATGGATGCTAGCCGTTGGCCGGTTTACCGGTCAGTGGCGCAGCTAACGCTTTAAGCATCCC
GCCTGGGGAGTACGGTCGCAAGATTAAAACTCAAAGGAATTGACGGGGGCCCGCACAAGCGGTGGAGCATGTGGTTCAAT
TCGACGCAACGCGAAGAACCTTACCAGCTCTTGACATGTCTCGTATGGGTTTCAGAGATGAGACCCTTCAGTTCGGCTGG
CGAGAACACAGGTGCTGCATGGCTGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCTC
GCCTTTAGTTGCCATCATTTAGTTGGGCACTCTAAAGGGACTGCCGGTGATAAGCCGCGA

otus.fa

>ASV_1
GTAGTCCACGCCGTAAACGGTGGGCGCTAGATGTGGGGACCTTCCACGGTTTCTGCGTCGCAGCTAACGCATTAAGCGCC
CCGCCTGGGGAGTACGGTCGCAAGACTAAAACTCAAAGGAATTGACGGGGGCCCGCACAAGCGGCGGAGCATGTTGCTTA
ATTCGACGCAACGCGAAGAACCTTACCAAGGCTTGACATCGCCGGAAAACTCGCAGAGATGCGGGGTCCTTTTGGGCCGG
TGACAGGTGGTGCATGGCTGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCTCGTTCT
ATGTTGCCAGCACGCCCTTCGGGGTGGTGGGGACTCATAGGAGACTGCCGGGGTCAACTCGGA
>ASV_2
GTAGTCCACGCCCTAAACGATGTCAACTGGTTGTTGGGAGGGTTTCTTCTCAGTAACGTAGCTAACGCGTGAAGTTGACC
GCCTGGGGAGTACGGCCGCAAGGTTGAAACTCAAAGGAATTGACGGGGACCCGCACAAGCGGTGGATGATGTGGTTTAAT
TCGATGCAACGCGAAAAACCTTACCTACCCTTGACATGTCTGGAATCCTGAAGAGATTTGGGAGTGCTCGAAAGAGAGCC
AGAACACAGGTGCTGCATGGCCGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCTTGT
CATTAGTTGCTACGAAAGGGCACTCTAATGAGACTGCCGGTGACAAACCGGA

usearch生成特征表

小样本(小于30)快;但大样本受限且多线程效率低,83.2%,4核17s

usearch -otutab temp/filtered.fa \
-otus result/raw/otus.fa \
-threads 4 \
-otutabout result/raw/otutab.txt

vsearch生成特征表

mkdir -p results/matrix
vsearch --usearch_global results/raw/filtered.fa \
    --db results/raw/otus.fa \
    --id 0.97 --threads 4 \
    --otutabout results/matrix/otutab.txt 

otutab.txt

#OTU IDKO1KO2KO3KO4KO5KO6OE1OE2OE3OE4OE5OE6WT1WT2WT3WT4WT5WT6
ASV_1382671282438381390476590500360490357799830567664508519
ASV_10107129231264372240706582105138103138201839418993
ASV_1002234461022432027232338191228162227
ASV_1000113002113120001143
ASV_1001310003330112103401
ASV_1002411442522537673501