展开

数据预处理

最后发布时间 : 2023-02-28 21:17:07 浏览量 :

合并双端序列并按样品重命名 Merge pair-end reads and rename

SampleIDGroup
KO1KO
KO2KO
KO3KO
KO4KO
KO5KO
KO6KO

metadata

WT1_1.fq.gz

zcat data/seq/WT1_1.fq.gz |less -S
@HISEQ:549:HLYNYBCXY:1:1101:6760:2239 1:N:0:CACTCAAT
ACGACTACAGAACAGGATTAGATACCCTGGTAGTCCACGCCGTAAACGATGATAACTAGCTGTCCGGGCACATGGTGCTTGGGTGGCGCAGCTAACGCATTAAGTTATCCGCCTGGGGAGTACGGTCGCAAGATTAAAACTCAAAGGAATTGACGGGGGCCTGCA>
+
DDDDDIIIIHIIIIIIHIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIHHIIIHIIIIIIIIIIIIIIIIIIIIHIIIIIIIIIIHIIIIIGHIIIIIIIIIIIHIIIIIIIIIIHIIIGHIIIIHIHHEHHHGHHIG>
@HISEQ:549:HLYNYBCXY:1:1101:15281:2155 1:N:0:CACTCAAT
ACGACTACAGAACAGGATTAGATACCCTGGTAGTCCACGCCCTAAACGATGTCAACTGGTTGTTGGGTCTTCACTGACTCAGTAACGAAGCTAACGCGTGAAGTTGACCGCCTGGGGAGTACGGCCGCAAGGTTGAAACTCAAAGGAATTGACGGGGACCCGCAC>
+
DDDDDICHIHIIIIIIIIIIIIIIIIIHIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIHIIIIIIIIIIIIIHIHHIIIGIIHIIIHIIIIIIHHIIIIIHHIIHIIIIIIHIIIIHIIGIIIIGHIIIIHIIIIIIHHHIIFHIIIIIGHIIIHII>

WT1_2.fq.gz

zcat data/seq/WT1_2.fq.gz |less -S
@HISEQ:549:HLYNYBCXY:1:1101:6760:2239 2:N:0:CACTCAAT
ACGTCATCCCCACCTTCCTCCGGCTTATCACCGGCGGTTTCCTTAGAGTGCCCAACTGAATGATGGCAACTAAGGACGAGGGTTGCGCTCGTTGCGGGACTTAACCCAACATCTCACGACACGAGCTGACGACAGCCATGCAGCACCTGTCACTGGTCCAGCCGA>
+
DDDDDIHIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIHHIIIGIFHIHIIHHIIHHHIIHIIIIIIIIFIIIHHIIFHHHHIIIIIIIIIIIIIIIIIIIIHHCGDHIIIHIHHIHIHIGHHIGIIGHHHHCFEHHHHH->
@HISEQ:549:HLYNYBCXY:1:1101:15281:2155 2:N:0:CACTCAAT
ACGTCATCCCCACCTTCCTCCGGTTTGTCACCGGCAGTCTCATTAGAGTGCCCAACTAAATGTAGCAACTAATGACAAGGGTTGCGCTCGTTGCGGGACTTAACCCAACATCTCACGACACGAGCTGACGACAGCCATGCAGCACCTGTGTTACGGTTCTCTTTC>
+
DDDDDIIIIIIIIIIIIIIIIIIIIIIIIIIHHIIIIIIIIIIIIIIIIIIIIIIIIIHHGIIIIIIIIIIIGIIHIIHIIIIIIIIIIIIHIIIIHHHFHGCGHIIHIIIHIIIIIGIIIIIIIIHHIIIIIIII?GHH?@GEHFGFEHHHIHIH@@HHIIIEG>
# vsearch --fastq_mergepairs data/seq/WT1_1.fq.gz --reverse data/seq/WT1_2.fq.gz --fastqout results/WT1.merged.fq --relabel WT1.
for i in `tail -n+2 data/metadata.txt|cut -f1`;do
    mkdir -p results/merged
    vsearch --fastq_mergepairs data/seq/${i}_1.fq.gz --reverse data/seq/${i}_2.fq.gz --fastqout results/merged/${i}.merged.fq --relabel ${i}.
done &

WT1.merged.fq

cat  results/merged/WT1.merged.fq   |less -S
@WT1.1
ACGACTACAGAACAGGATTAGATACCCTGGTAGTCCACGCCGTAAACGATGATAACTAGCTGTCCGGGCACATGGTGCTTGGGTGGCGCAGCTAACGCATTAAGTTATCCGCCTGGGGAGTACGGTCGCAAGATTAAAACTCAAAGGAATTGACGGGGGCCTGCA>
+
DDDDDIIIIHIIIIIIHIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIHHIIIHIIIIIIIIIIIIIIIIIIIIHIIIIIIIIIIHIIIIIGHIIIIIIIIIIIHIIIIIIIIIIHIIIGHIIIIHIHHEHHHGHHIG>
@WT1.2
ACGACTACAGAACAGGATTAGATACCCTGGTAGTCCACGCCCTAAACGATGTCAACTGGTTGTTGGGTCTTCACTGACTCAGTAACGAAGCTAACGCGTGAAGTTGACCGCCTGGGGAGTACGGCCGCAAGGTTGAAACTCAAAGGAATTGACGGGGACCCGCAC>
+
DDDDDICHIHIIIIIIIIIIIIIIIIIHIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIHIIIIIIIIIIIIIHIHHIIIGIIHIIIHIIIIIIHHIIIIIHHIIHIIIIIIHIIIIHIIGIIIIGHIIIIHIIIIIIHHHIIFHIIIIIGHIIIHII>

合并所有样品至同一文件

cat results/merged/*.merged.fq > results/merged/all.fq

all.fq

cat  results/merged/all.fq   |less -S、
@KO1.1
ACGCTCGACAAACAGGATTAGATACCCTGGTAGTCCACGCCCTAAACGATGTGTGCTGGGCGTCGGGGGGCTTGCCCCTCGGTGCCGGAGCCAACGCGGTAAGCACACCGCCTGGGGAGTACGGCCGCAAGGTTAAAACTCAAAGGAATTGACGGGGGCCCGCAC>
+
@DDDDHIIIIIIHHIIIIGHIHICGHIIIIIIH<FHF?CHHIHHCGHHHHIFHCHE@G@EF?HHHHCHID/EEHCEHHII?EGDHI/DHHIFHHHHD<HDHGDHHEGGFCHHHCHH<EEE0DECHHIGIHHED@FCDFE0;DGHHI?GH/BDFHDHHH<?-8?8E>
@KO1.2
ACGCTCGACAAACAGGATTAGATACCCTGGTAGTCCACGCCGTAAACGATGGATGCTAGCCGTTGGCCGGTTTACCGGTCAGTGGCGCAGCTAACGCTTTAAGCATCCCGCCTGGGGAGTACGGTCGCAAGATTAAAACTCAAAGGAATTGACGGGGGCCCGCAC>
+
DDDDDIIIGIIIIIIIIIIIHIIIIIIIGIIIIIHIIIIIIIIGIGIHHIHHIIIIIIIIIIIIIIIIIIIHIIIIIHHIIIHHGIDHDHHIIIIIIIIIIIHIIIGHIHIHHHHIHHIIIHHDGHIHHHDCHHIIIGIIIIIHIGHIIHHHGHEHDHHIGIIII>

切除引物与质控 Cut primers and quality filter

左端10bp标签+19bp上游引物V5共为29,右端V7为18bp下游引物
Cut barcode 10bp + V5 19bp in left and V7 18bp in right
务必清楚实验设计和引物长度,引物已经去除可填0,27万条序列14s

mkdir -p results/raw
vsearch --fastx_filter results/merged/all.fq       \
    --fastq_stripleft 29 \
    --fastq_stripright 18       \
    --fastq_maxee_rate 0.01 \
    --fastaout results/raw/filtered.fa

filtered.fa

cat  results/raw/filtered.fa   |less -S
>KO1.1
GTAGTCCACGCCCTAAACGATGTGTGCTGGGCGTCGGGGGGCTTGCCCCTCGGTGCCGGAGCCAACGCGGTAAGCACACC
GCCTGGGGAGTACGGCCGCAAGGTTAAAACTCAAAGGAATTGACGGGGGCCCGCACAAGCGGCGGAGCATGTTGCTTAAT
TCGACGCAACGCGAAGAACCTTACCAAGGCTTGACATCGCCGGAAAACTCGCAGAGATGCGGGGTCCTTTTGGGCCGGTG
ACAGGTGGTGCATGGCTGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCTCGTTCTAT
GTTGCCAGCACGCCCTTCGGGGTGGTGGGGACTCATAGGAGACTGCCGGGGTCAACTCGG
>KO1.2
GTAGTCCACGCCGTAAACGATGGATGCTAGCCGTTGGCCGGTTTACCGGTCAGTGGCGCAGCTAACGCTTTAAGCATCCC
GCCTGGGGAGTACGGTCGCAAGATTAAAACTCAAAGGAATTGACGGGGGCCCGCACAAGCGGTGGAGCATGTGGTTCAAT
TCGACGCAACGCGAAGAACCTTACCAGCTCTTGACATGTCTCGTATGGGTTTCAGAGATGAGACCCTTCAGTTCGGCTGG
CGAGAACACAGGTGCTGCATGGCTGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCTC
GCCTTTAGTTGCCATCATTTAGTTGGGCACTCTAAAGGGACTGCCGGTGATAAGCCGCGA