RNA-seq counts distribution

最后发布时间:2022-06-08 10:50:48 浏览量:

RNA-Seq中经常需要进行两组间的差异分析，通常我们可以用方差分析判定两组分布数据间是否存在显著差异。原理是，当组间方差大于组内方差（误差效应），并且统计学显著时，则认为组间处理的差异是可以引起差异的。

在实际的转录组实验中，我们进行实验的生物学重复（n小于10）很小，而且任何基因的表达量都不是负数，这些数据并不符合正态分布，用于表征表达量的count是非连续的，RNA-Seq数据的高度离散通常是高度扭曲的，方差往往大于均值，这使得准确估计方差并没有想的那么容易。

参考: 泊松分布的分布函数_RNAseq的count矩阵数据分布类型

为什么RNA-seq的数据不符合泊松分布？
那造成差异形成的主要原因其实跟生物学重复有着密切的关系，同样条件下的样本其实也存在不同的个体差异，即基因的表达量有着略微的不同，而当基因表达量非常高的时候，就造成了虽然在同一个条件下，但样本之间存在着几十上百的表达量差异。但是技术重复并不会造成这么大的差异，所以我们如果处理技术上的重复，用泊松分布模型即可，比如DEGseq、Myrna和PoissonSeq都是使用泊松模型处理RNA-seq数据。

参考: RNA-seq中的负二项分布

: admin
: 联系作者

快捷入口: 生物信息学笔记思维导图浏览PDF 下载PDF

分享到：

标签

Github开源生信云平台 DEMO