GWAS 基因型填充的流程

最后发布时间 : 2026-06-18 12:01:04 浏览量 :

GWAS 中的 基因型填充（Genotype Imputation） 是利用参考人群（Reference Panel）推断芯片未检测到的 SNP，从而提高 SNP 密度和 GWAS 检测能力。

一个标准的 GWAS Imputation 流程如下：

原始芯片数据
(IDAT/CEL等)
      │
      ▼
芯片软件导出
(GenomeStudio/Axiom Analysis Suite)
      │
      ▼
PLINK格式
(PED/MAP 或 BED/BIM/FAM)
      │
      ▼
样本QC
(Sample QC)
      │
      ▼
SNP QC
(Marker QC)
      │
      ▼
Build检查
(hg18/hg19/hg38)
      │
      ▼
Strand Check
(链方向校正)
      │
      ▼
LiftOver
(统一参考基因组版本)
      │
      ▼
Pre-phasing
(单倍型推断)
      │
      ▼
Imputation
(基因型填充)
      │
      ▼
Post-Imputation QC
      │
      ▼
GWAS分析

1 样本QC（Sample QC）

删除质量差的样本。

常见指标：

指标	阈值
Call Rate	>95%-98%
Heterozygosity	±3SD
Sex Check	一致
Duplicates	删除
Relatedness	PI_HAT < 0.1875
Population Stratification	PCA检查

PLINK示例：

plink \
 --bfile raw \
 --mind 0.02 \
 --make-bed \
 --out qc1

表示：

样本缺失率 > 2%
删除

2 SNP QC（Marker QC）

删除低质量位点。

常见标准：

指标	阈值
Missing Rate	<0.02
MAF	>0.01
HWE	P > 1e-6

例如：

plink \
 --bfile qc1 \
 --geno 0.02 \
 --maf 0.01 \
 --hwe 1e-6 \
 --make-bed \
 --out qc2

3 Build检查

确认芯片坐标版本。

常见：

Build	名称
hg18	NCBI36
hg19	GRCh37
hg38	GRCh38

参考面板要求统一版本。

例如：

TOPMed → hg38

1000G → hg19

HRC → hg19

4 Strand Check（非常重要）

这是很多人容易忽略的步骤。

为什么要做？

同一个 SNP：

正链：
A/G

负链：
T/C

如果芯片与参考面板方向不同：

A/G
↓
T/C

会导致：

Imputation完全错误

特别危险

AT 和 CG SNP

例如：

A/T

翻转后：

T/A

看起来一样。

无法判断方向。

称为：

Ambiguous SNP

通常直接删除。

Strand检查工具

Michigan Imputation Server

上传前自动检查。

HRC Checking Tool

HRC-1000G-check-bim

经典工具。

运行：

perl HRC-1000G-check-bim.pl \
 -b mydata.bim \
 -f mydata.fam \
 -r HRC.r1-1.GRCh37.wgs.mac5.sites.tab.gz

会生成：

Flip SNP
Remove SNP
Position mismatch
Allele mismatch

5 LiftOver

如果坐标版本不一致：

例如：

芯片：hg19

TOPMed：hg38

需要转换。

UCSC LiftOver

转换：

chr1:100000(hg19)
      ↓
chr1:101253(hg38)

6 Pre-phasing

这是 Imputation 前最重要的一步。

什么是 Phasing

芯片数据：

A/G

只知道：

一条染色体A
另一条染色体G

不知道：

父源？
母源？

Phasing后：

Haplotype1:
A-C-T-G

Haplotype2:
G-T-C-A

得到单倍型结构。

主流软件

Eagle

目前最常用。

eagle \
 --bfile qc \
 --geneticMapFile map.txt \
 --out phased

SHAPEIT5

大型队列常用。

shapeit5 phase_common

Beagle

也能完成Phasing。

7 Imputation

利用参考面板推断未测SNP。

原理

芯片：

50万 SNP

参考面板：

5000万 SNP

根据共享单倍型：

推断

缺失位点。

常用参考面板

1000 Genomes Project

~2500样本

Haplotype Reference Consortium

~6万样本

TOPMed Program

>9万样本

目前最强。

常用平台

Michigan Imputation Server

最常用。

支持：

Eagle
Minimac4
TOPMed
HRC
1000G

TOPMed Imputation Server

TOPMed官方平台。

本地软件

Minimac4

Michigan Server后台使用。

minimac4 \
 --refHaps ref.m3vcf.gz \
 --haps phased.vcf.gz \
 --prefix output

Beagle

同时支持：

Phasing
Imputation

8 Post-Imputation QC

填充后需要再次过滤。

常用指标：

指标	阈值
INFO Score	>0.3
Rsq	>0.3
MAF	>0.01
Missing	<0.05

例如：

plink2 \
 --pfile imputed \
 --extract-if-info "INFO > 0.8"

高质量分析通常：

INFO > 0.8

9 GWAS分析

最终得到：

500K SNP
      ↓
20M~80M SNP

然后进行：

Logistic Regression
Linear Regression
Mixed Model

常用软件：

PLINK 2.0
BOLT-LMM
SAIGE
REGENIE

如果是当前（2025-2026）主流的人类 GWAS 项目，一个推荐流程是：

IDAT
 ↓
GenomeStudio
 ↓
PLINK QC
 ↓
HRC/TOPMed Check
 ↓
LiftOver(hg38)
 ↓
Eagle 2.4.1
 ↓
TOPMed Imputation
 ↓
INFO过滤
 ↓
PCA
 ↓
SAIGE/REGENIE
 ↓
GWAS

这是目前大型队列（UK Biobank、中国人群队列、医院队列等）最接近生产级的标准流程。

APOE4 的 rs429358 与 rs7412是连锁不平衡吗