Chip-seq

最后发布时间 : 2023-02-10 20:10:42 浏览量 :

ChIP是指染色质免疫沉淀，它通特异结合抗体将DNA结合蛋白免疫沉淀，可以用于捕获蛋白质（如转录因子，组蛋白修饰）的DNA靶点。这技术存在非常久了，在二代测序之前，结合microarray，它的名字叫ChIP-on-chip，二代测序出来之后，显而易见的，免疫沉淀拉下来的DNA拿去NGS测序，这必然是下一代的ChIP技术，优点也是显而易见的，不再需要设计探针（往往存在着一定的偏向性）。所以NGS出来以后，不差钱的牛逼实验室显然占据上风，谁先做出来，谁就定义了新技术。这是有钱人的竞赛，没钱的只能等着技术烂大街的时候跟风做。
这是显而易见的下一代技术，外加技术上完全是可行的，所以这是一场单纯的时间竞赛，于是几乎同时出来CNS文章，基本上谁也不比谁差地同时扔出来。

Johnson DS, Mortazavi A et al. (2007) Genome-wide mapping of in vivo protein–DNA interactions. Science 316: 1497–1502
Robertson G et al.(2007) Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nature Methods 4: 651–657
Schmid et al. (2007) ChIP-Seq Data reveal nucleosome architecture of human promoters. Cell 131: 831–832

2007年来自三个不同的实验室，几乎是同时间出来（最长差不了3个月），分别发CNS，一起定义了这个ChIPseq技术。

这个技术分为4步：

Cross-linking
Sonication
IP
Sequencing

DNA和蛋白质交联(cross-linking)，超声(sonication)将染色体随机切割，利用抗原抗体的特异性识别(IP)，把目标蛋白相结合的DNA片段沉淀下来，反交联释放DNA片段，最后是测序(sequencing)。

一个典型的分析流程如下：

测序之后，我们当然首先需要做质量控制，然后就是做mapping，拿到这些DNA片段在染色体上的位置信息，ChIPseq的数据我们还需要做peak calling，把背景噪声去掉，比如上图中使用MACS做peak calling，这样我们就得到了protein binding site (peak)，就可以做下游的分析，比如可视化、相关的基因（比如最近的基因、宿主基因）、Motif分析等等。
Peak annotation做的就是binding site的相关基因注释。

必须知晓的BED文件

BED的全称是Browser Extensible Data，顾名思义是为genome browser设计的.
BED包含有3个必须的字段和9个可选字段。
三个字段包括：

1 chrom - 染色体名字
2 chromStart - 染色体起始位点
3 chromEnd - 染色体终止位点

这里必须指出的是chromStart是起始于0，而不是1。很多分析软件都忽略了这一点，会有一个碱基的位移，Homer和ChIPseeker没有这个问题，而像peakAnalyzer, ChIPpeakAnno等都有位移的问题。

可选的9个字段包括：

4 name - 名字
5 score - 分值(0-1000), 用于genome browser展示时上色。
6 strand - 正负链，对于ChIPseq数据来说，一般没有正负链信息。
7 thickStart - 画矩形的起点
8 thickEnd - 画矩形的终点
9 itemRgb - RGB值
10 blockCount - 子元件（比如外显子）的数目
11 blockSizes - 子元件的大小
12 blockStarts - 子元件的起始位点

一般情况下，我们只用到前面5个字段，这也是做peak calling的MACS输出的字段。

原文: https://mp.weixin.qq.com/s/3CMj0xejiV-FSMC-Vxd_-w

表观遗传学——数据的回贴与比对转录因子Chip-seq数据分析