基因型填充FQA

最后发布时间 : 2026-06-22 14:42:07 浏览量 :
QC
 ↓
Phasing (Eagle)
 ↓
Imputation (Minimac4)
 ↓
VCF.gz
PLINK BED
    ↓
转换VCF
    ↓
Eagle2 Phasing
    ↓
Minimac4 Imputation
PLINK QC
↓
bed/bim/fam
↓
Michigan Imputation Server
↓
Eagle2 (自动)
↓
Minimac4 (自动)
↓
Imputed VCF

Eagle2 本来就是按染色体独立运行的

Eagle2 的目标就是:

Genotype
    ↓
Phase
    ↓
Haplotype

例如:

输入:

rs1  A/G
rs2  C/T
rs3  G/G

输出:

Haplotype 1:

A-C-G

Haplotype 2:

G-T-G

为什么要做 Phase

因为 Imputation 依赖于单倍型匹配。

对你的 890 样本 GWAS 数据

标准流程就是:

890S.sampleQc.snpQC
    ↓
按染色体拆分

chr1
chr2
...
chr22

    ↓
Eagle2
    ↓
Phased VCF

    ↓
Minimac4
    ↓
Imputed VCF

通常只拆到 染色体级别,不建议再切成多个区间,除非:

样本数非常大(几十万样本)
参考面板特别大
集群并行计算需要

对于这种约 890 个样本的 GWAS 数据,按染色体并行已经足够高效了。