图片alt
从一个fasta文件中读取中提取 cell barcode和UMI ,并将其添加到相应的fasta文件的相同reads的header中
# C = cell barcode position; N = UMI position umi_tools extract --bc-pattern=CCCCCCCCNNNNNNNN \ # barcode+umi --stdin test_R2.fastq.gz \ # --stdout test.R1.extracted.fq.gz \ --read2-stdout \ --read2-in test_R1.fastq.gz \ --whitelist=barcode_96_8bp.txt # barcode细胞类型文件
cutadapt
cutadapt \ -g TGGTATCAACGCAGAGTACATGGG \ # 去除TSO GGG -a AAAAAAAAAAAAAAA \ # 去除polyA test.R1.extracted.fq.gz \ -m 37 \ # 最短reads要求37bp -o test.R1.clean.fq.gz
Trim Galore:质控,去接头,删除 RRBS 序列文件的偏向甲基化位置
STAR构建index
STAR --runThreadN 20 --runMode genomeGenerate --genomeDir ./star --genomeFastaFiles fasta/genome.fa --sjdbGTFfile genes/genes.gtf
比对
STAR --runThreadN 4 \ --genomeDir $genomeDir \ # 参考基因组 --readFilesIn test.R1.clean.fq.gz \ --readFilesCommand zcat \ --outFilterMultimapNmax 1 \ #比对时允许的最大错配数 --outFileNamePrefix test. \ --outSAMtype BAM SortedByCoordinate
质控:test.Log.final.out, bam文件: test.Aligned.sortedByCoord.out.bam
featureCounts
featureCounts -a $gtf \ -o gene_assigned \ -R BAM test.Aligned.sortedByCoord.out.bam \ -T 4
test.Aligned.sortedByCoord.out.bam.featureCounts.bam,加上一列tag标记基因名字 XT:Z:ENSG00000206172
整理bam文件
samtools sort -m 15000000000 test.Aligned.sortedByCoord.out.bam.featureCounts.bam -o test.assigned_sorted.bam; samtools index test.assigned_sorted.bam
umi tools count适用于大多数单细胞 RNA-Seq 方法,该工具仅设计用于在扩增后发生片段化的文库制备方法。 由于精确的映射坐标不再为此类文库制备提供信息,因此将其简化为基因为单位统计测到的UMI数。
umi_tools count --per-gene --gene-tag=XT \ --per-cell --wide-format-cell-counts \ -I test.assigned_sorted.bam -S test.UMI_counts.tsv
<5%
>3
降维聚类后低质量细胞会聚在一起,观察这群细胞的基因数,UMI数和线粒体比例,取合理范围进行质控
使得细胞之间可以相互比较(细胞的测序深度相同)
将已知的标志基因map到分群上