参考+ Gene-level differential expression analysis+ Differential expression analysis+ https://hbctraining.github.io/DGE_workshop/lessons/01_DGE_setup_and_overview.html+ https://hbctraining.github.io/DGE_workshop_salmon_online/lessons/01b_DGE_setup_and_overview.html
## Count matrix当我们需要开始进行RNA-seq数据分析之前,我们会得到一个基因水品的表达矩阵,其中行是基因,列是样本,矩阵中的每个值都是Counts(正整数)。
像t-test这类型的检验不是为counts设计的,并且我们在实验设计时一组的重复通常不是很大,我们不能相信中心极限定理(Central Limit Theorem)去使用t-test,因此我们需要对counts进行建模。
为了方便后续讨论,我将先介绍一些符号+ X_{ij}表示gene i (i=1,...,m)在sample j (j=1,...,n)中的Count,这个Count来源于reads比对到reference genome 对应基因区域的reads数量,这里我们不讨论可变剪切,我们认为基因时一个单元。当然,在reads mapping的时候我们可能考虑到,是否时唯一的mapping,这些在这里都忽略。
当我们考虑count的分布时,我们是说同一组处理条件下的gene都有一个对应的分布,因为每一个基因都很独特(有自己的长度、表达量),当我们进行差异基因表达分析时我们是对每一个基因进行假设检验,如果差异表达确实存在,那么两个处理条件下的分布将是不同的。
我们可以用符号X_{i1},...,X_{ij}\sim Count Distribution表示一个条件下的一个基因是独立同分布(Independent and identically distributed,iid)
对于这个Count Distribution我们可以考虑poisson
上下经卦名次序歌乾坤屯蒙需讼师, 比小畜兮履泰否,同人大有谦豫随, 蛊临观兮噬嗑贲,剥复无妄大畜颐, 大过坎离三十备。咸恒遁兮及大壮, 晋与明夷家人睽,蹇解损益夬姤萃, 升困井革鼎震继,艮渐归妹丰旅巽....
岁月如刀,刀刀催人老,软了香蕉,紫了葡萄....
假如一个人认为自己的知识是可以无限的扩展,凭借理性的能力可以征服一切,人遗忘了自己存在的根本的渺小和卑贱,这样的人最可怕,他失去了必要的谦卑太多