图片alt

图片alt


图片alt

图片alt

先决条件

从fasta文件到count matrix

提取 cell barcode和unique molecular identifier

从一个fasta文件中读取中提取 cell barcode和UMI ,并将其添加到相应的fasta文件的相同reads的header中

图片alt

图片alt


umi_tools extract

# C = cell barcode position; N = UMI position
umi_tools extract --bc-pattern=CCCCCCCCNNNNNNNN \ # barcode+umi 
--stdin test_R2.fastq.gz \ # 
--stdout test.R1.extracted.fq.gz \
--read2-stdout \
--read2-in test_R1.fastq.gz \
--whitelist=barcode_96_8bp.txt # barcode细胞类型文件

图片alt

图片alt

数据质控

cutadapt

cutadapt \
-g TGGTATCAACGCAGAGTACATGGG \ # 去除TSO GGG
-a AAAAAAAAAAAAAAA \ # 去除polyA
test.R1.extracted.fq.gz \
-m 37 \ # 最短reads要求37bp
-o test.R1.clean.fq.gz

Trim Galore:质控,去接头,删除 RRBS 序列文件的偏向甲基化位置

数据比对

STAR
构建index

STAR --runThreadN 20 --runMode genomeGenerate --genomeDir ./star --genomeFastaFiles fasta/genome.fa --sjdbGTFfile genes/genes.gtf

比对

STAR --runThreadN 4 \
--genomeDir $genomeDir \ # 参考基因组
--readFilesIn test.R1.clean.fq.gz \ 
--readFilesCommand zcat \
--outFilterMultimapNmax 1 \ #比对时允许的最大错配数
--outFileNamePrefix test. \
--outSAMtype BAM SortedByCoordinate

质控:test.Log.final.out, bam文件: test.Aligned.sortedByCoord.out.bam

转录本定量

featureCounts

featureCounts -a $gtf \
-o gene_assigned \
-R BAM test.Aligned.sortedByCoord.out.bam \
-T 4

test.Aligned.sortedByCoord.out.bam.featureCounts.bam,加上一列tag标记基因名字 XT:Z:ENSG00000206172

整理bam文件

samtools sort -m 15000000000 test.Aligned.sortedByCoord.out.bam.featureCounts.bam -o test.assigned_sorted.bam; 
samtools index test.assigned_sorted.bam

获取单细胞基因表达矩阵

umi tools count
适用于大多数单细胞 RNA-Seq 方法,该工具仅设计用于在扩增后发生片段化的文库制备方法。 由于精确的映射坐标不再为此类文库制备提供信息,因此将其简化为基因为单位统计测到的UMI数。

umi_tools count --per-gene --gene-tag=XT \
--per-cell --wide-format-cell-counts \
-I test.assigned_sorted.bam -S test.UMI_counts.tsv

从表达矩阵开始(鉴定细胞类型)

图片alt

图片alt

质量控制(过滤低质量细胞,过滤不表达基因)

降维聚类后低质量细胞会聚在一起,观察这群细胞的基因数,UMI数和线粒体比例,取合理范围进行质控

数据校正、标准化normalization

使得细胞之间可以相互比较(细胞的测序深度相同)

证明数据质量好

选取高异质性基因 highly variable genes

归一化

降维-二维平面可视化 dimension reduction

分群 clustering

标志基因定义细胞类型:biomarker

将已知的标志基因map到分群上

图片alt

图片alt


CellMarker
celltaxonomy

寻找差异基因 differentially expressed genes

功能注释