Github开源生信云平台 DEMO
QC ↓ Phasing (Eagle) ↓ Imputation (Minimac4) ↓ VCF.gz
PLINK BED ↓ 转换VCF ↓ Eagle2 Phasing ↓ Minimac4 Imputation
PLINK QC ↓ bed/bim/fam ↓ Michigan Imputation Server ↓ Eagle2 (自动) ↓ Minimac4 (自动) ↓ Imputed VCF
Eagle2 本来就是按染色体独立运行的
Eagle2 的目标就是:
Genotype ↓ Phase ↓ Haplotype
例如:
输入:
rs1 A/G rs2 C/T rs3 G/G
输出:
Haplotype 1:
A-C-G
Haplotype 2:
G-T-G
为什么要做 Phase
因为 Imputation 依赖于单倍型匹配。
对你的 890 样本 GWAS 数据
标准流程就是:
890S.sampleQc.snpQC ↓ 按染色体拆分 chr1 chr2 ... chr22 ↓ Eagle2 ↓ Phased VCF ↓ Minimac4 ↓ Imputed VCF
通常只拆到 染色体级别,不建议再切成多个区间,除非:
样本数非常大(几十万样本)参考面板特别大集群并行计算需要
对于这种约 890 个样本的 GWAS 数据,按染色体并行已经足够高效了。