甲基化测序

最后发布时间 : 2023-03-31 13:54:18 浏览量 :

As a stable repressive mark, DNA methylation, catalyzed by the DNA methyltransferases (DNMTs), is regarded as a key player in epigenetic silencing of transcription^[1].

https://view.inews.qq.com/a/20220608A02DW900

BS-Seq/Bisulfite-seq/WGBS

https://www.illumina.com/science/sequencing-method-explorer/kits-and-arrays/bs-seq-bisulfite-seq-wgbs.html

Method Category: Epigenome > Methylation
ENCODE WGBS paired-end pipeline
- github
https://github.com/seb-mueller/snakemake-bisulfite

Mapping reads to the reference genome

接下来，读数应与参考基因组一致。传统的比对工具如BWA、Bowtie或Maq是不合适的，因为标准参考基因组和亚硫酸氢盐处理的DNA读数之间存在差异。有许多可用的工具，如Bismark、BS-Seeker2、Bison、Last或B-SOLANA。以Bismark为代表的比对工具使用现有的短读比对器，并在内部处理WGBS数据分析特有的要求，在绘制前将测序读取和基因组参考中的C转换为T。其他方法，如Last，使用可以容忍C-T失配的特定分数矩阵。

Methylation calling

PCR复制品可在与参考基因组比对后进行计算识别，因为它们错误地夸大了基因组覆盖率，并将在进一步分析中出现假阳性错误。通常，我们解决PCR偏差的方法是删除与参考基因组同一条链上相同位置对齐的读数。甲基化调用可以使用比对工具（如Bismark）执行，Bismark提供BAM文件，以及与甲基化调用相关的其他度量和文件。

在亚硫酸盐的治疗中可能发生不完全转化和DNA降解，即非甲基化的CS不会完全转化为TS。因此，在对齐和甲基化呼叫后仍需要执行质量控制以消除假阳性错误。有两种方法可以校准转化率。一种是使用非CPG甲基化的百分比，另一种是使用未甲基化的CS添加尖峰序列并计算TS计数。

WGBS的生物信息学分析和可视化包括甲基化水平和密度分析等基础数据分析、基序分析和共表达网络分析等高级数据分析

DMR calling software (Condon et al. 2018)

Identification of differentially methylated regions

差异甲基化分析旨在发现特定群体之间的differentially methylated region (DMR) 。DMS (differentially methylated CpG site)是指不同样本之间甲基化修饰水平显著不同的胞嘧啶位点。它反映了单碱基分辨率下样品之间甲基化修饰的差异，是研究甲基化调控基因表达的基本单位。

Segmentation of the methylome

甲基化动力学分析在样品中也很重要。例如，甲基化谱中的凹陷通常精确定位调控区域，许多基因体区域被广泛甲基化，CpG缺乏。这些观察可以描述基因的结构和功能。甲基化状态（包括低甲基化区域、完全甲基化区域和非甲基化区域）可以通过使用计算方法（如MethylSeekR和MethPipe）分割甲基体来识别。

Annotation of MDR/DMS and segments

DMR/DMS和片段通常需要用基因组注释数据库以生物学术语解释。有多种工具可以生成这样的注释。例如，Bioconductor封装基因组可用于注释DMR/DMS并整合甲基化比例。CHIPpeakAnno是另一个类似的软件包，它不仅适用于ChIP-seq峰值注释，而且在一定程度上也适用于DMR/DMC注释。

Clustering analysis

聚类是指基于相似性将对象分组为聚类。聚类分析在识别疾病的分子亚型中很重要。PCA分析，也称为主成分分析，是检测不同处理或不同发育阶段之间甲基化数据模式的常用方法，从而解释不同处理中甲基化模式的变化。PCA分析还检测批次效应。聚类分析的另一种常用方法是分层聚类。HumMeth27QCReport和methykit等工具使用标准化M值提供PCA和分层聚类选项。

Pathway analysis

根据每个样品的甲基化数据，进行聚类分析和富集分析，以分析样品之间的相似性。它通常包括GO富集分析和KEGG路径分析，两者都使用DAVID web服务器。
GO分析。基因本体（GO）是基因功能的国际标准分类系统。对相关基因进行GO富集分析可以探索DMR调控基因的生物学功能、细胞组成和生物学过程。

KEGG途径分析。KEGG通路显著富集分析可以确定DMR调节基因中最重要的生化代谢途径和信号转导途径。

参考

https://www.cd-genomics.com/whole-genome-bisulfite-sequencing-wgbs-data-analysis-pipeline.html

In contrast, DNA methylation in multicellular eukaryotes occurs predominantly but not exclusively at cytosine residues within CpG dinucleotides^[2]

sankemake

snakemake -np trimmed/bsseq_sample1_R1_trim.fq.gz

trim_galore  --cores 1 --paired --trim1 data/bsseq_sample1_R1.fastq.gz data/bsseq_sample1_R2.fastq.gz --output_dir trimmed

bismark建立index

bismark_genome_preparation data/index

└── index
    ├── Bisulfite_Genome
    │   ├── CT_conversion
    │   │   ├── BS_CT.1.bt2
    │   │   ├── BS_CT.2.bt2
    │   │   ├── BS_CT.3.bt2
    │   │   ├── BS_CT.4.bt2
    │   │   ├── BS_CT.rev.1.bt2
    │   │   ├── BS_CT.rev.2.bt2
    │   │   └── genome_mfa.CT_conversion.fa
    │   └── GA_conversion
    │       ├── BS_GA.1.bt2
    │       ├── BS_GA.2.bt2
    │       ├── BS_GA.3.bt2
    │       ├── BS_GA.4.bt2
    │       ├── BS_GA.rev.1.bt2
    │       ├── BS_GA.rev.2.bt2
    │       └── genome_mfa.GA_conversion.fa
    └── chloroplast.fa

bismark mapping

bismark  \
    --bowtie2 -p 3 \
    --nucleotide_coverage data/index/ \
    -1 trimmed/bsseq_sample1_R1_trim.fq.gz \
    -2 trimmed/bsseq_sample1_R2_trim.fq.gz \
    --basename bsseq_sample1_MappedOn_chloroplast_trim_bismark \
    --output_dir mapped \
    2> logs/bismark/bsseq_sample1_MappedOn_chloroplast.log

去重

deduplicate_bismark \
    --paired \
    --bam mapped/bsseq_sample1_MappedOn_chloroplast_trim_bismark_pe.bam \
    --output_dir mapped \
    2> logs/bismark/bsseq_sample1_MappedOn_chloroplast.deduplication.log

samtools \
    sort mapped/bsseq_sample1_MappedOn_chloroplast_trim_bismark_pe.deduplicated.bam \
    > mapped/bsseq_sample1_MappedOn_chloroplast_trim_bismark_pe.deduplicated.sorted.bam
samtools \
    index mapped/bsseq_sample1_MappedOn_chloroplast_trim_bismark_pe.deduplicated.sorted.bam

全基因组DNA甲基化测序（Whole Genome Bisulfite Sequencing， WGBS）被视为DNA甲基化研究的“金标准”，结合重亚硫酸盐（Bisulfite）处理和高通量测序技术，实现全基因组范围内单个C碱基的甲基化分析，适用于全基因组精细甲基化图谱的构建。

通过研究DNA甲基化与肿瘤、神经变性疾病和自身免疫性疾病等的相关性，以及胚胎发育、基因印迹和X染色体失活等过程，探讨表观遗传学研究的重要意义。

甲基化位点检测及统计
甲基化位点附近序列特征检测
样品间相关性分析
PCA分析
差异甲基化位点（DMS）分析
差异甲基化区域（DMR）分析
- DMR鉴定结果统计
- DMR结构注释
- DMR基因GO富集分析（仅限模式物种）
- DMR基因KEGG富集分析（仅限模式物种）
差异甲基化启动子（DMP）分析
- 差异甲基化启动子（DMP）统计（仅限模式物种）
- DMP聚类分析（仅限模式物种）
- DMP 基因GO富集分析（仅限模式物种）
- DMP基因KEGG富集分析（仅限模式物种）
甲基化数据SNP检测
肿瘤纯度分析
甲基化转录因子鉴定
与其他测序数据关联分析

https://www.ribobio.com/product-and-service/high-throughput-sequencing-service/wgbs/

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3174260/
↩
https://www.ijbs.com/v11p0604.htm
↩

甲基化芯片 Mapping reads to the reference genome