Chip-seq
ChIP是指染色质免疫沉淀,它通特异结合抗体将DNA结合蛋白免疫沉淀,可以用于捕获蛋白质(如转录因子,组蛋白修饰)的DNA靶点。这技术存在非常久了,在二代测序之前,结合microarray,它的名字叫ChIP-on-chip,二代测序出来之后,显而易见的,免疫沉淀拉下来的DNA拿去NGS测序,这必然是下一代的ChIP技术,优点也是显而易见的,不再需要设计探针(往往存在着一定的偏向性)。所以NGS出来以后,不差钱的牛逼实验室显然占据上风,谁先做出来,谁就定义了新技术。这是有钱人的竞赛,没钱的只能等着技术烂大街的时候跟风做。
这是显而易见的下一代技术,外加技术上完全是可行的,所以这是一场单纯的时间竞赛,于是几乎同时出来CNS文章,基本上谁也不比谁差地同时扔出来。
- Johnson DS, Mortazavi A et al. (2007) Genome-wide mapping of in vivo protein–DNA interactions. Science 316: 1497–1502
- Robertson G et al.(2007) Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nature Methods 4: 651–657
- Schmid et al. (2007) ChIP-Seq Data reveal nucleosome architecture of human promoters. Cell 131: 831–832
2007年来自三个不同的实验室,几乎是同时间出来(最长差不了3个月),分别发CNS,一起定义了这个ChIPseq技术。
这个技术分为4步:
- Cross-linking
- Sonication
- IP
- Sequencing
DNA和蛋白质交联(cross-linking),超声(sonication)将染色体随机切割,利用抗原抗体的特异性识别(IP),把目标蛋白相结合的DNA片段沉淀下来,反交联释放DNA片段,最后是测序(sequencing)。
一个典型的分析流程如下:
测序之后,我们当然首先需要做质量控制,然后就是做mapping,拿到这些DNA片段在染色体上的位置信息,ChIPseq的数据我们还需要做peak calling,把背景噪声去掉,比如上图中使用MACS做peak calling,这样我们就得到了protein binding site (peak),就可以做下游的分析,比如可视化、相关的基因(比如最近的基因、宿主基因)、Motif分析等等。
Peak annotation做的就是binding site的相关基因注释。
必须知晓的BED文件
BED的全称是Browser Extensible Data,顾名思义是为genome browser设计的.
BED包含有3个必须的字段和9个可选字段。
三个字段包括:
- 1 chrom - 染色体名字
- 2 chromStart - 染色体起始位点
- 3 chromEnd - 染色体终止位点
这里必须指出的是chromStart是起始于0,而不是1。很多分析软件都忽略了这一点,会有一个碱基的位移,Homer和ChIPseeker没有这个问题,而像peakAnalyzer, ChIPpeakAnno等都有位移的问题。
可选的9个字段包括:
- 4 name - 名字
- 5 score - 分值(0-1000), 用于genome browser展示时上色。
- 6 strand - 正负链,对于ChIPseq数据来说,一般没有正负链信息。
- 7 thickStart - 画矩形的起点
- 8 thickEnd - 画矩形的终点
- 9 itemRgb - RGB值
- 10 blockCount - 子元件(比如外显子)的数目
- 11 blockSizes - 子元件的大小
- 12 blockStarts - 子元件的起始位点
一般情况下,我们只用到前面5个字段,这也是做peak calling的MACS输出的字段。