GWAS 基因型填充的流程

最后发布时间 : 2026-06-18 12:01:04 浏览量 :

GWAS 中的 基因型填充(Genotype Imputation) 是利用参考人群(Reference Panel)推断芯片未检测到的 SNP,从而提高 SNP 密度和 GWAS 检测能力。

一个标准的 GWAS Imputation 流程如下:

原始芯片数据
(IDAT/CEL等)
      │
      ▼
芯片软件导出
(GenomeStudio/Axiom Analysis Suite)
      │
      ▼
PLINK格式
(PED/MAP 或 BED/BIM/FAM)
      │
      ▼
样本QC
(Sample QC)
      │
      ▼
SNP QC
(Marker QC)
      │
      ▼
Build检查
(hg18/hg19/hg38)
      │
      ▼
Strand Check
(链方向校正)
      │
      ▼
LiftOver
(统一参考基因组版本)
      │
      ▼
Pre-phasing
(单倍型推断)
      │
      ▼
Imputation
(基因型填充)
      │
      ▼
Post-Imputation QC
      │
      ▼
GWAS分析

1 样本QC(Sample QC)

删除质量差的样本。

常见指标:

指标阈值
Call Rate>95%-98%
Heterozygosity±3SD
Sex Check一致
Duplicates删除
RelatednessPI_HAT < 0.1875
Population StratificationPCA检查

PLINK示例:

plink \
 --bfile raw \
 --mind 0.02 \
 --make-bed \
 --out qc1

表示:

样本缺失率 > 2%
删除

2 SNP QC(Marker QC)

删除低质量位点。

常见标准:

指标阈值
Missing Rate<0.02
MAF>0.01
HWEP > 1e-6

例如:

plink \
 --bfile qc1 \
 --geno 0.02 \
 --maf 0.01 \
 --hwe 1e-6 \
 --make-bed \
 --out qc2

3 Build检查

确认芯片坐标版本。

常见:

Build名称
hg18NCBI36
hg19GRCh37
hg38GRCh38

参考面板要求统一版本。

例如:

TOPMed → hg38

1000G → hg19

HRC → hg19

4 Strand Check(非常重要)

这是很多人容易忽略的步骤。

为什么要做?

同一个 SNP:

正链:
A/G

负链:
T/C

如果芯片与参考面板方向不同:

A/G
↓
T/C

会导致:

Imputation完全错误

特别危险

AT 和 CG SNP

例如:

A/T

翻转后:

T/A

看起来一样。

无法判断方向。

称为:

Ambiguous SNP

通常直接删除。


Strand检查工具

Michigan Imputation Server

上传前自动检查。

HRC Checking Tool

HRC-1000G-check-bim

经典工具。

运行:

perl HRC-1000G-check-bim.pl \
 -b mydata.bim \
 -f mydata.fam \
 -r HRC.r1-1.GRCh37.wgs.mac5.sites.tab.gz

会生成:

Flip SNP
Remove SNP
Position mismatch
Allele mismatch

5 LiftOver

如果坐标版本不一致:

例如:

芯片:hg19

TOPMed:hg38

需要转换。


UCSC LiftOver

UCSC LiftOver

转换:

chr1:100000(hg19)
      ↓
chr1:101253(hg38)

6 Pre-phasing

这是 Imputation 前最重要的一步。


什么是 Phasing

芯片数据:

A/G

只知道:

一条染色体A
另一条染色体G

不知道:

父源?
母源?

Phasing后:

Haplotype1:
A-C-T-G

Haplotype2:
G-T-C-A

得到单倍型结构。


主流软件

Eagle

目前最常用。

eagle \
 --bfile qc \
 --geneticMapFile map.txt \
 --out phased

SHAPEIT5

大型队列常用。

shapeit5 phase_common

Beagle

也能完成Phasing。


7 Imputation

利用参考面板推断未测SNP。


原理

芯片:

50万 SNP

参考面板:

5000万 SNP

根据共享单倍型:

推断

缺失位点。


常用参考面板

1000 Genomes Project

~2500样本

Haplotype Reference Consortium

~6万样本

TOPMed Program

>9万样本

目前最强。


常用平台

Michigan Imputation Server

最常用。

支持:

Eagle
Minimac4
TOPMed
HRC
1000G

TOPMed Imputation Server

TOPMed官方平台。


本地软件

Minimac4

Michigan Server后台使用。

minimac4 \
 --refHaps ref.m3vcf.gz \
 --haps phased.vcf.gz \
 --prefix output

Beagle

同时支持:

Phasing
Imputation

8 Post-Imputation QC

填充后需要再次过滤。

常用指标:

指标阈值
INFO Score>0.3
Rsq>0.3
MAF>0.01
Missing<0.05

例如:

plink2 \
 --pfile imputed \
 --extract-if-info "INFO > 0.8"

高质量分析通常:

INFO > 0.8

9 GWAS分析

最终得到:

500K SNP
      ↓
20M~80M SNP

然后进行:

  • Logistic Regression
  • Linear Regression
  • Mixed Model

常用软件:

  • PLINK 2.0
  • BOLT-LMM
  • SAIGE
  • REGENIE

如果是当前(2025-2026)主流的人类 GWAS 项目,一个推荐流程是:

IDAT
 ↓
GenomeStudio
 ↓
PLINK QC
 ↓
HRC/TOPMed Check
 ↓
LiftOver(hg38)
 ↓
Eagle 2.4.1
 ↓
TOPMed Imputation
 ↓
INFO过滤
 ↓
PCA
 ↓
SAIGE/REGENIE
 ↓
GWAS

这是目前大型队列(UK Biobank、中国人群队列、医院队列等)最接近生产级的标准流程。