Github开源生信云平台 DEMO
GWAS 中的 基因型填充(Genotype Imputation) 是利用参考人群(Reference Panel)推断芯片未检测到的 SNP,从而提高 SNP 密度和 GWAS 检测能力。
一个标准的 GWAS Imputation 流程如下:
原始芯片数据 (IDAT/CEL等) │ ▼ 芯片软件导出 (GenomeStudio/Axiom Analysis Suite) │ ▼ PLINK格式 (PED/MAP 或 BED/BIM/FAM) │ ▼ 样本QC (Sample QC) │ ▼ SNP QC (Marker QC) │ ▼ Build检查 (hg18/hg19/hg38) │ ▼ Strand Check (链方向校正) │ ▼ LiftOver (统一参考基因组版本) │ ▼ Pre-phasing (单倍型推断) │ ▼ Imputation (基因型填充) │ ▼ Post-Imputation QC │ ▼ GWAS分析
删除质量差的样本。
常见指标:
PLINK示例:
plink \ --bfile raw \ --mind 0.02 \ --make-bed \ --out qc1
表示:
样本缺失率 > 2% 删除
删除低质量位点。
常见标准:
例如:
plink \ --bfile qc1 \ --geno 0.02 \ --maf 0.01 \ --hwe 1e-6 \ --make-bed \ --out qc2
确认芯片坐标版本。
常见:
参考面板要求统一版本。
TOPMed → hg38 1000G → hg19 HRC → hg19
这是很多人容易忽略的步骤。
同一个 SNP:
正链: A/G 负链: T/C
如果芯片与参考面板方向不同:
A/G ↓ T/C
会导致:
Imputation完全错误
AT 和 CG SNP
A/T
翻转后:
T/A
看起来一样。
无法判断方向。
称为:
Ambiguous SNP
通常直接删除。
上传前自动检查。
HRC-1000G-check-bim
经典工具。
运行:
perl HRC-1000G-check-bim.pl \ -b mydata.bim \ -f mydata.fam \ -r HRC.r1-1.GRCh37.wgs.mac5.sites.tab.gz
会生成:
Flip SNP Remove SNP Position mismatch Allele mismatch
如果坐标版本不一致:
芯片:hg19 TOPMed:hg38
需要转换。
UCSC LiftOver
转换:
chr1:100000(hg19) ↓ chr1:101253(hg38)
这是 Imputation 前最重要的一步。
芯片数据:
A/G
只知道:
一条染色体A 另一条染色体G
不知道:
父源? 母源?
Phasing后:
Haplotype1: A-C-T-G Haplotype2: G-T-C-A
得到单倍型结构。
目前最常用。
eagle \ --bfile qc \ --geneticMapFile map.txt \ --out phased
大型队列常用。
shapeit5 phase_common
也能完成Phasing。
利用参考面板推断未测SNP。
芯片:
50万 SNP
参考面板:
5000万 SNP
根据共享单倍型:
推断
缺失位点。
~2500样本
~6万样本
>9万样本
目前最强。
最常用。
支持:
Eagle Minimac4 TOPMed HRC 1000G
TOPMed官方平台。
Michigan Server后台使用。
minimac4 \ --refHaps ref.m3vcf.gz \ --haps phased.vcf.gz \ --prefix output
同时支持:
Phasing Imputation
填充后需要再次过滤。
常用指标:
plink2 \ --pfile imputed \ --extract-if-info "INFO > 0.8"
高质量分析通常:
INFO > 0.8
最终得到:
500K SNP ↓ 20M~80M SNP
然后进行:
常用软件:
如果是当前(2025-2026)主流的人类 GWAS 项目,一个推荐流程是:
IDAT ↓ GenomeStudio ↓ PLINK QC ↓ HRC/TOPMed Check ↓ LiftOver(hg38) ↓ Eagle 2.4.1 ↓ TOPMed Imputation ↓ INFO过滤 ↓ PCA ↓ SAIGE/REGENIE ↓ GWAS
这是目前大型队列(UK Biobank、中国人群队列、医院队列等)最接近生产级的标准流程。