RNA-Seq中经常需要进行两组间的差异分析,通常我们可以用方差分析判定两组分布数据间是否存在显著差异。原理是,当组间方差大于组内方差(误差效应),并且统计学显著时,则认为组间处理的差异是可以引起差异的。
在实际的转录组实验中,我们进行实验的生物学重复(n小于10)很小,而且任何基因的表达量都不是负数,这些数据并不符合正态分布,用于表征表达量的count是非连续的,RNA-Seq数据的高度离散通常是高度扭曲的,方差往往大于均值,这使得准确估计方差并没有想的那么容易。
为什么RNA-seq的数据不符合泊松分布?
那造成差异形成的主要原因其实跟生物学重复有着密切的关系,同样条件下的样本其实也存在不同的个体差异,即基因的表达量有着略微的不同,而当基因表达量非常高的时候,就造成了虽然在同一个条件下,但样本之间存在着几十上百的表达量差异。但是技术重复并不会造成这么大的差异,所以我们如果处理技术上的重复,用泊松分布模型即可,比如DEGseq、Myrna和PoissonSeq都是使用泊松模型处理RNA-seq数据。
参考: RNA-seq中的负二项分布