如何学习生信

最后发布时间:2022-03-07 08:47:37 浏览量:

生信学习

  • 入门
    • 1门编程语言
    • 学习RNA-Seq数据分析、
    • 重复1篇经典生信分析论文
  • 进阶
    • 计算机知识
    • 数学、统计学、算法原理
    • 研究领域的100篇paper
  • 再提升
    • 明确研究问题,研究领域
    • 明确自己能调动的资源

重要的能力

  • 复杂问题拆解为简单问题
  • 泛化的能力(新问题用老问题的方法)

转录组

  • 基因芯片数据分析
  • RNA-Seq数据分析

Term

  • Whole-genome sequencing,WGS
  • Whole Exome Sequencing,WES
  • Whole Genome Bisulfite Sequencing,WGBS
  • Genome-Wide Association Studies (GWAS)
  • Epigenetics表观遗传学
  • Chromatin Immunoprecipitation Sequencing,ChIP-seq,染色质免疫沉淀后

转录组数据分析

第1部分 RNA Seq的基础知识

  1. RNA-Seq的生物学基础
  2. RNA-Seq的发展历史
  3. RNA-Seq及常用测序技术
    • Illumina
    • PacBio
    • Nanopore
    • MGI2500(华大智造)
  4. RNA-Seq的常用建库流程
    • Poly A + 方式
    • rRNA - 方式
    • 链特异性 方式
  5. RNA-Seq的常用质控指标
    • 测序质量
    • RIN
    • 降解曲线
    • 分布比例
  6. RNA-Seq数据质控流程推荐
  7. RNA-Seq分析流程概览

第2部分 RNA-Seq的mapping

  1. RNA-Seq与WGS的mapping异同
  2. Tophat2和Hisat2
  3. STAR
  4. Tophat2, Hisat2, STAR的比对算法 (*算法)

第3部分 RNA-Seq的定量及标准化

  1. 几种常用的指标
    • Count
    • TMM
    • CPM
    • FPKM
    • RPKM
    • TPM
    • RSEM
  2. TPM与FPKM的比较
  3. RSEM的原理

第4部分 寻找差异表达基因
0. RNA-Seq差异统计检验的基本假设

  1. 方便快捷:cuffdiff2的使用与统计学原理
  2. 基于count:edgeR的使用与统计学原理
  3. 基于count:DESeq2的使用与统计学原理
  4. 基于count:limma-voom的使用与统计学原理
  5. 特殊样本RNA-Seq差异表达基因的寻找
    • 使用ERCC control进行校正
    • 使用house keeping gene进行校正

第5部分 RNA-Seq的注释分析

  1. GO的原理及实现(David网站 + R语言)
  2. GSEA的原理及实现(R语言)
  3. KEGG的原理及实现(R语言)
  4. 非模式生物的富集分析(R语言)

第6部分 多样本RNA-Seq分析

  1. WGCNA
  2. 多样本下差异表达的分析
  3. 常见的多样本方法
    • PCA
    • 聚类
    • tSNE

基因组

  • 基因组变异
  • 类型
    • Single Nucleotide Polymorphisms (SNP)
    • Insertion/Deletion Polymorphisms (INDEL)
    • Structural Variation (SV)
  • 检测方法
    • 基因芯片
    • 测序
      • WGS
      • WES
      • Target sequencing
  • 突变与疾病的关系
    • 胚系突变(突变与遗传关系)
    • 体细胞突变(体细胞突变与肿瘤)
    • 单基因遗传病——家系分析
    • 全基因组关联分析

表观遗传

多组学(Mutiomics)

  • 蛋白质组学
  • 代谢组学
  • 微生物组学(宏基因组学)

下游分析流程

  • chip-seq:差异peak的比较,转录因子结合位点的差异,motif序列的识别
  • 转录组分析:差异表达的基因
  • 基因组学分析:不同组织的变异的差异