展开

转录组简介

最后发布时间 : 2024-12-04 23:16:20 浏览量 :

学习资料

利用深度测序技术研究转录组

本章我们将首先介绍RNA-seq测序技术产生的RNA数据

什么是RNA-seq技术

生信小木屋

  • 高通量测序(High-Throughput Sequencing)又名下一代测序(Next Generation Sequencing,NGS)可以在全转录组水平利用测序技术,对转录本进行定量与定性分析,即RNA-Seq技术。

注意,为了与single cell RNA-seq区别,本章节中的RNA-seq也可以称为bulk RNA-seq

数据介绍

#!/usr/bin/env bash
curl -L ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR251/097/SRR25146197/SRR25146197_1.fastq.gz -o SRR25146197_GSM7548885_si-ATMIN_rep1_Homo_sapiens_RNA-Seq_1.fastq.gz
curl -L ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR251/097/SRR25146197/SRR25146197_2.fastq.gz -o SRR25146197_GSM7548885_si-ATMIN_rep1_Homo_sapiens_RNA-Seq_2.fastq.gz
curl -L ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR251/096/SRR25146196/SRR25146196_1.fastq.gz -o SRR25146196_GSM7548886_si-ATMIN_rep2_Homo_sapiens_RNA-Seq_1.fastq.gz
curl -L ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR251/096/SRR25146196/SRR25146196_2.fastq.gz -o SRR25146196_GSM7548886_si-ATMIN_rep2_Homo_sapiens_RNA-Seq_2.fastq.gz
curl -L ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR251/095/SRR25146195/SRR25146195_1.fastq.gz -o SRR25146195_GSM7548887_si-ATMIN_rep3_Homo_sapiens_RNA-Seq_1.fastq.gz
curl -L ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR251/095/SRR25146195/SRR25146195_2.fastq.gz -o SRR25146195_GSM7548887_si-ATMIN_rep3_Homo_sapiens_RNA-Seq_2.fastq.gz
curl -L ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR251/094/SRR25146194/SRR25146194_1.fastq.gz -o SRR25146194_GSM7548888_si-NC_rep1_Homo_sapiens_RNA-Seq_1.fastq.gz
curl -L ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR251/094/SRR25146194/SRR25146194_2.fastq.gz -o SRR25146194_GSM7548888_si-NC_rep1_Homo_sapiens_RNA-Seq_2.fastq.gz
curl -L ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR251/093/SRR25146193/SRR25146193_1.fastq.gz -o SRR25146193_GSM7548889_si-NC_rep2_Homo_sapiens_RNA-Seq_1.fastq.gz
curl -L ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR251/093/SRR25146193/SRR25146193_2.fastq.gz -o SRR25146193_GSM7548889_si-NC_rep2_Homo_sapiens_RNA-Seq_2.fastq.gz
curl -L ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR251/092/SRR25146192/SRR25146192_1.fastq.gz -o SRR25146192_GSM7548890_si-NC_rep3_Homo_sapiens_RNA-Seq_1.fastq.gz
curl -L ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR251/092/SRR25146192/SRR25146192_2.fastq.gz -o SRR25146192_GSM7548890_si-NC_rep3_Homo_sapiens_RNA-Seq_2.fastq.gz

SRP447432

转录本的组装后分析

一旦完成转录本地组装,基于组装的转录本和RNA-seq的数据,可以研究以下内容

  • 量化转录本和基因丰度。这是许多其他分析的先决条件,例如检查样本中差异表达的转录本。
  • 执行差异表达式分析。 Trinity 为多种 DE 分析方法提供直接支持,包括 edgeR、 DEseq2、 Limma/Voom 和 ROTS。
  • 使用 TransDecder 提取编码区域,并使用 Trinotate 对转录本进行功能性注释。
  • 如果你的生物体有一个组装的基因组,考虑使用Trinity转录组组装结果,使用 PASA注释基因结构。

转录本组装质量的评估

  • 检查组装的 RNA-Seq reads示。理想情况下,至少80% 的输入 RNA-Seq 读数由转录组组装体表示。剩余的未组装读数可能对应于低表达的转录本,其覆盖范围不足以使组装成为可能,或者是低质量或异常读数。
  • 通过搜索已知蛋白质序列数据库中的组装转录本,检查全长重建蛋白质编码基因的表示。
  • 使用 BUSCO 根据保守的直系同源内容来探索完整性。
  • 计算 E90N50转录本的contig长度-基于代表90% 表达数据的转录本集合的contig N50值。
    • Reads拼接后会获得一些不同长度的Contigs.将所有的Contig长度相加,能获得一个Contig总长度.然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,contig 3...………Contig 25.将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50.举例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50.ContigN50可以作为基因组拼接的结果好坏的一个判断标准.