转录组


    1. 转录组简介
    2. RNA-seq测序质控
    3. 下游质控
    4. 比对分析
    5. 定量分析
    6. 差异表达分析
    7. 基因功能分析
    8. 基因结构分析
    9. 转录本组装
    10. 编码区预测
    11. 文章及数据

    教程

    测试数据

    六例两组样本+spike-in

    这里测试数据是mapping到22号染色体的reads,物种是Human。
    数据来源:https://github.com/griffithlab/rnaseq_tutorial/wiki/RNAseq-Data
    可选的数据下载地址:https://gitee.com/bioinfoFungi/testData/tree/master/RNA-seq

    • UHR + ERCC Spike-In Mix1, Replicate 1
    • UHR + ERCC Spike-In Mix1, Replicate 2
    • UHR + ERCC Spike-In Mix1, Replicate 3
    • HBR + ERCC Spike-In Mix2, Replicate 1
    • HBR + ERCC Spike-In Mix2, Replicate 2
    • HBR + ERCC Spike-In Mix2, Replicate 3

    UHR是从10种不同的癌细胞系中分离的总RNA。HBR是从23名不同年龄但大多为60-80岁的白种人(男性和女性)的大脑中分离出的总RNA。ERCC ExFold RNA Spike-In Control Mixes被添加到每个样本中。Mix1被添加到UHR样品中,Mix2被添加到HBR样品中。我们还为每个样本进行了3次完整的实验复制
    The spike-in consists of 92 transcripts that are present in known concentrations across a wide abundance range (from very few copies to many copies). This range allows us to test the degree to which the RNA-seq assay (including all laboratory and analysis steps) accurately reflects the relative abundance of transcript species within a sample.

    包含chr22和 ERCC transcript的 fasta 文件

    • chr22_with_ERCC92.fa
    gzip -dc chr22_with_ERCC92.fa.gz > chr22_with_ERCC92.fa
    

    chr22和 ERCC 的注释文件

    • chr22_with_ERCC92.gtf
    gzip -dc chr22_with_ERCC92.gtf.gz > chr22_with_ERCC92.gtf
    

    4种不同条件下生长的粟酒裂殖酵母

    RNA-Seq 数据包括在对数生长(Sp _ log)、平台期(Sp _ plat)、热休克(Sp _ hs)和双功能移位(Sp _ ds)4种不同条件下生长的粟酒裂殖酵母(Schizosaccharoymyces pombe,fission yeast)对应的配对末端76碱基链特异性 Illumina RNA-Seq reads。
    数据来源: https://github.com/trinityrnaseq/RNASeq_Trinity_Tuxedo_Workshop/wiki
    数据下载:https://github.com/trinityrnaseq/RNASeq_Trinity_Tuxedo_Workshop/tree/master/RNASEQ_data


    https://gitee.com/bioinfoFungi/rna-seq

    图片alt

    图片alt

    RNA sequencing: the teenage years

    图片alt

    图片alt

    RNA-Seq differential expression analysis: An extended review and a software tool

    RNA-Seq相关技术

    图片alt

    图片alt

    Coupling mRNA processing with transcription in time and space

    5'加帽 Capping

    可变剪切

    可变ployA尾

    RNA编辑

    • FASTQ->BAM->Call SNP(筛选A->G)
    • Call SNP:WGS、WES的GATK流程
    转录起始位点鉴定
    • GRO-Seq
    • NET-Seq
    • SLAM-Seq

    翻译效率

    • Ribosome footprint

    RNA二级结构的测定(RNA-RNA Interaction)

    PARS、SHAPE-Seq\SHAPE-MaP
    相当于RNA-RNA的Interaction,测定DNA-DNA Interaction 的技术为Hi-C

    RNA结合蛋白位点预测

    • CLIP-Seq 鉴定RNA结合蛋白位点预测
    • CHIP-Seq 鉴定DNA的结合蛋白

    比对软件时间线

    • 2009年 Tophat
    • 2012年 STAR
    • 2013年 Tophat2
    • 2015年 HISAT
    • 2019年 HISAT2

    参考

    https://bioincloud.tech/cloudir/reports/transcriptome/%E7%BB%93%E9%A2%98%E6%8A%A5%E5%91%8A.html#a3.1

    转录组简介RNA-seq测序质控下游质控比对分析RNA-seq reads mapping定量分析featureCount定量质控transcript abundance SalmonRNA-seq数据标准化差异表达分析DeSeq2差异基因表达模式聚类基因功能分析ORAGSEAGSVA功能注释基因结构分析可变剪切分析MATS可变剪切可视化基因融合分析SNPs + IndelsSRRCDS(coding DNA sequence )预测RNA editing转录本组装stringTie组装和量化转录本Trinity 组装结果功能注释编码区预测文章及数据