Github开源生信云平台 DEMO
你这个问题已经进入 Imputation pipeline 的核心设计问题了,我帮你一次讲清楚(重点分 4 层)。
这是:
✅ Eagle2 用的 reference haplotype panel(原始参考单倍型)
特点:
结构类似:
chr20 1000 A G sample1 0|1 sample2 1|0
👉 用途:
Eagle2 Phasing 输入参考
✅ Minimac4 用的 reference panel(压缩后的 imputation reference)
结构本质:
haplotype matrix + variant index
Minimac4 Imputation 输入
但必须满足:
例如:
Phasing: HRC BCF (shapeit3 panel) Imputation: HRC MSAV
Phasing: 1000G reference VCF Imputation: 1000G m3vcf / bref3 / msav
Phasing: HRC reference Imputation: 1000G panel
原因:
haplotype structure 不一致 LD pattern 不一致 variant set 不一致
很多 production pipeline:
Phasing reference 和 imputation reference 来自同一 panel,但不是同一个文件
例如 HRC:
BCF → Eagle2 MSAV → Minimac4
它们是:
同一数据源 不同表示形式
标准逻辑:
HRC / 1000G / TOPMed ↓ Phasing panel ↓ Imputation panel
比如:
Phasing: HRC panel (EUR-rich) Imputation: 1000G (multi-ancestry)
会导致:
Eagle2 需要:
--geneticMapFile genetic_map_chr20_combined_b37.txt
Eagle2 是 HMM:
P(recombination) depends on genetic distance (cM)
没有 map:
physical distance ≠ recombination probability
Broad Institute / Eagle project:
genetic_map_hg19/GRCh37 genetic_map_hg38
下载路径:
https://alkesgroup.broadinstitute.org/Eagle/downloads/tables/
genetic map:
QC / strand check / allele alignment
✔️ 有,但形式不同:
1000G Phase3 VCF
bcftools query vcftools --freq
PLINK QC ↓ VCF conversion ↓ Eagle ↓ Minimac
直接 skip sites.tab
BCF → Eagle2 (phasing reference) MSAV → Minimac4 (imputation reference)
必须同一来源(HRC / 1000G / TOPMed) 但可以不同文件格式
必须有 但只和 genome build 相关
HRC有官方 1000G一般不用 可以用VCF替代
我可以帮你把这一套抽象成:
JSON DAG: - QC node - Phase node (Eagle2) - Impute node (Minimac4) - Reference abstraction layer (HRC / 1000G / TOPMed)
甚至可以直接帮你设计:
✔ Nextflow / Cromwell workflow schema✔ scatter-chromosome execution✔ reference-switch strategy
只要你说一声 👍