DeSeq2 Materials and methods

最后发布时间 : 2025-02-11 20:46:45 浏览量 :

除了需要考虑计数数据的细节(例如非正态性和方差对平均值的依赖性)之外,一个核心挑战是典型 HTS 实验中的样品数量少——通常每个条件只有两到三个重复。由于组内方差估计的高度不确定性,单独处理每个基因的推理方法在这里缺乏效力。在高通量检测中,可以通过汇集跨基因的信息来克服这一限制,特别是通过利用关于同一实验中测量的不同基因方差相似性的假设。

DESeq2 默认会先估计 dispersion 参数,然后在 GLM 中结合估计的 dispersion 参数来计算基因表达差异的显著性。

Model and normalization

模型描述

  • 读数K\_{ij}表示基因i在样本j中的测序读数。
    使用 负二项分布 (Negative Binomial, NB) 对数据建模:
\begin{aligned} & K_{ij} \sim\mathrm{NB}\left(\mathrm{mean}=\mu_{ij},\text{dispersion}=\alpha_i\right) \\ \end{aligned}
  • 其中\mu_{ij} =s_{ij}q_{ij},表示读数的期望值。
  • s_{ij}是标准化系数,用来调整样本间的测序深度差异。
  • q_{ij}是样本j中基因i的相对表达量。

线性模型

  • 使用广义线性模型 (GLM) 以对数链接函数描述基因表达:
\log q_{ij}=\sum_rx_{jr}\beta_{ir}
  • x_{jr}是样本j的协变量,例如实验条件。
  • \beta_{ir}是基因i对应的模型系数。

标准化方法

  • 默认采用 中位数比值法 (median-of-ratios method) 估计标准化常数s_j:
s_j=\mathrm{median}_{i:K_i^R\neq0}\frac{K_{ij}}{K_i^R}
  • K_i^R是基因i的几何平均表达量
K_i^R=\left(\prod_{j=1}^mK_{ij}\right)^{1/m}
  • 该方法用于调整样本间测序深度和系统偏差。

Estimation of dispersions