展开

基因表达Count的数据分布

最后发布时间 : 2025-01-18 15:59:03 浏览量 :

参考

Static Badge Static Badge

Count matrix

当我们需要开始进行RNA-seq数据分析之前,我们会得到一个基因水品的表达矩阵,其中行是基因,列是样本,矩阵中的每个值都是Counts(正整数)。

生信小木屋

像t-test这类型的检验不是为counts设计的,并且我们在实验设计时一组的重复通常不是很大,我们不能相信中心极限定理(Central Limit Theorem)去使用t-test,因此我们需要对counts进行建模。

为了方便后续讨论,我将先介绍一些符号

  • X_{ij}表示gene i (i=1,...,m)在sample j (j=1,...,n)中的Count,这个Count来源于reads比对到reference genome 对应基因区域的reads数量,这里我们不讨论可变剪切,我们认为基因时一个单元。当然,在reads mapping的时候我们可能考虑到,是否时唯一的mapping,这些在这里都忽略。

当我们考虑count的分布时,我们是说同一组处理条件下的gene都有一个对应的分布,因为每一个基因都很独特(有自己的长度、表达量),当我们进行差异基因表达分析时我们是对每一个基因进行假设检验,如果差异表达确实存在,那么两个处理条件下的分布将是不同的。

我们可以用符号X_{i1},...,X_{ij}\sim Count Distribution表示一个条件下的一个基因是独立同分布(Independent and identically distributed,iid)

对于这个Count Distribution我们可以考虑poisson