展开

deeparg

最后发布时间 : 2024-01-11 10:50:47 浏览量 :

学习资料

生信小木屋

什么是抗性基因?

抗性基因(resistance genes)是指编码抗生素或其他抗菌药物抵抗性的基因。这些基因存在于微生物的基因组中,并可以被传递给其他微生物,导致抗生素抵抗性的传播。抗性基因可以使微生物对抗生素产生抵抗,从而使抗生素治疗失效。

在宏基因组研究中,科学家可以通过分析环境样品中的微生物群体,检测和鉴定存在的抗性基因。这种方法可以帮助我们了解不同环境中抗性基因的分布情况,以及它们可能对公共卫生和临床医学的影响。

如何鉴定抗性基因?

DeepARG是一个基于深度学习的工具,用于预测和鉴定宏基因组数据中的抗性基因。

apptainer  exec --bind /data:/data  /data/deeparg_latest.sif \
    deeparg short_reads_pipeline \
    --forward_pe_file /data/KM3_4.unmapped_1.fastq.gz \
    --reverse_pe_file /data/KM3_4.unmapped_2.fastq.gz \
    --output_file /data/test  \
    -d /data/database

docker run --rm -v  /data:/data   -v  /ssd1:/ssd1   gaarangoa/deeparg:latest   \
     deeparg short_reads_pipeline     \
     --forward_pe_file /data/metagenomics/pml_nextflow/deeparg/F.fq.gz     \
     --reverse_pe_file /data/metagenomics/pml_nextflow/deeparg/R.fq.gz     \
     --output_file  /data/metagenomics/pml_nextflow/deeparg/test2/test      \
     -d /ssd1/zyd/bin/deeparg/database \
      --bowtie_16s_identity 100

Trimming and QC using Trimmomatic

trimmomatic PE -phred33  \
	F.fq.gz R.fq.gz  \
	./output/trimmomatic/F.fq.gz.paired ./output/trimmomatic/F.fq.gz.unpaired \
	./output/trimmomatic/R.fq.gz.paired ./output/trimmomatic/R.fq.gz.unpaired \
	LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

Merging paired end reads using Vsearch

vsearch \
    --fastq_mergepairs  ./output/trimmomatic/F.fq.gz.paired \
    --reverse  ./output/trimmomatic/R.fq.gz.paired \
    --fastaout  ./output/vsearch/F.fq.gz.paired.merged \
    --fastaout_notmerged_fwd ./output/vsearch/F.fq.gz.paired.unmerged \
    --fastaout_notmerged_rev ./output/vsearch/R.fq.gz.paired.unmerged



cat  ./output/vsearch/F.fq.gz.paired.merged \
    ./output/vsearch/F.fq.gz.paired.unmerged \
    ./output/vsearch/R.fq.gz.paired.unmerged > ./output/clean/test.clean

Run DeepARG-SS to identify ARG-like read

deeparg predict \
    --type nucl \
    --model SS -d /home/wangyang/workspace/gusphdproj-deeparg-ss-fbe063e24cf7/database \
    -i ./output/clean/test.clean \
    -o ./output/deeparg/test.clean.deeparg \
    --arg-alignment-identity 80 \
    --min-prob 0.8 \
    --arg-alignment-evalue 1e-10

Quantification of ARG-like counts

sort -k1,1 -k2,2n \
    ./output/deeparg/test.clean.deeparg.mapping.ARG  \
    | bedtools merge -c 12,5 -o sum,distinct >./output/deeparg/test.clean.deeparg.mapping.ARG.merged


python merge.py  ./output/deeparg/test.clean.deeparg.mapping.ARG /home/wangyang/workspace/gusphdproj-deeparg-ss-fbe063e24cf7/database
 sort -k1,1 -k2,2n test/reads.clean.deeparg.mapping.ARG | less -S
  • -k1,1:这是排序的第一个键(key)。-k1,1 表示使用第一列作为排序的键。-k 选项后面的数字表示开始列和结束列,这里的 1,1 表示只使用第一列作为排序键。
  • -k2,2n:这是排序的第二个键。-k2,2n 表示使用第二列作为排序的键,并且使用数值排序。 n 表示数值排序(按照数字大小排序),而不是按照字典顺序排序。
apple 10
banana 5
apple 5
banana 10
apple 5
apple 10
banana 5
banana 10

生信小木屋

sort -k1,1 -k2,2n test/reads.clean.deeparg.mapping.ARG | bedtools merge -c 12,5 -o sum,distinct | less -S

生信小木屋

Normalize to 16S rRNAs - this may take a while

bowtie2 -f \
    --fast-local \
    --no-unal \
    -x /home/wangyang/workspace/gusphdproj-deeparg-ss-fbe063e24cf7/database/data/gg13/dataset \
    -U ./output/clean/test.clean \
    -S ./output/normalize/test.clean.sam

samtools view -bS ./output/normalize/test.clean.sam > ./output/normalize/test.clean.bam
samtools sort ./output/normalize/test.clean.bam -o ./output/normalize/test.clean.sorted.bam
bedtools merge -i ./output/normalize/test.clean.sorted.bam -c 1 -o count > ./output/normalize/test.clean.sorted.bam.merged

python mapping.py output/normalize/test.clean /home/wangyang/workspace/gusphdproj-deeparg-ss-fbe063e24cf7/database/data/gg13/dataset


python normalize.py ./output/normalize/test.clean.sorted.bam.merged ./output/deeparg/test.clean.deeparg.mapping.ARG.merged.quant