HRC.r1-1.GRCh37.chr20.shapeit3.mac5.aa.genotypes.bcf 与 HRC.r1-1.GRCh38.chr1.shapeit3.mac5.aa.genotypes.msav 的区别 Reference Panel 的 Phasing 和 Imputation 必须选择一样吗 都是HRC或 1000G 吗 , 位点列表只能用 HRC.r1-1.GRCh37.wgs.mac5.sites.tab.gz 吗没有对应的1000G

最后发布时间 : 2026-06-22 16:37:54 浏览量 :

你这个问题已经进入 Imputation pipeline 的核心设计问题了,我帮你一次讲清楚(重点分 4 层)。


一、HRC chr20 .bcf vs .msav 是什么区别?

1)HRC.r1-1.GRCh37.chr20.shapeit3.mac5.aa.genotypes.bcf

这是:

Eagle2 用的 reference haplotype panel(原始参考单倍型)

特点:

  • 已经 phasing 完成
  • 按染色体分割的 BCF
  • 每一行是 variant + phased haplotypes

结构类似:

chr20 1000 A G
sample1  0|1
sample2  1|0

👉 用途:

Eagle2 Phasing 输入参考

2)HRC.r1-1.GRCh38.chr1.shapeit3.mac5.aa.genotypes.msav

这是:

Minimac4 用的 reference panel(压缩后的 imputation reference)

特点:

  • MSAV(Minimac Savvy format)
  • 专门为 imputation设计
  • 比 bcf 更压缩、更快

结构本质:

haplotype matrix + variant index

👉 用途:

Minimac4 Imputation 输入

🔥 核心区别总结

项目BCF(HRC .bcf)MSAV
用途Phasing (Eagle2)Imputation (Minimac4)
数据形态phased haplotypescompressed reference panel
是否原始更接近原始参考二次压缩生成
读写速度较慢很快
依赖工具Eagle2Minimac4

二、Phasing 和 Imputation 必须用同一个 Reference Panel 吗?

❌ 不必须完全一致

但必须满足:


✔️ 必须“同一体系”一致

例如:

推荐组合1(最标准 HRC pipeline)

Phasing:  HRC BCF (shapeit3 panel)
Imputation: HRC MSAV

推荐组合2(1000G pipeline)

Phasing:  1000G reference VCF
Imputation: 1000G m3vcf / bref3 / msav

❗ 关键规则

✔️ 可以不同“文件格式”

✔️ 但不能混用“不同参考体系”

例如:

❌ 错误组合

Phasing: HRC reference
Imputation: 1000G panel

原因:

haplotype structure 不一致
LD pattern 不一致
variant set 不一致

⚠️ 但有一个现实情况(非常重要)

很多 production pipeline:

Phasing reference 和 imputation reference 来自同一 panel,但不是同一个文件

例如 HRC:

BCF  → Eagle2
MSAV → Minimac4

它们是:

同一数据源
不同表示形式

三、Eagle2 reference panel 和 Minimac reference panel 必须一致吗?

✔️ 必须“来源一致”,但不要求“文件一致”

标准逻辑:

HRC / 1000G / TOPMed
        ↓
  Phasing panel
        ↓
  Imputation panel

🔥 如果不一致会发生什么?

比如:

Phasing: HRC panel (EUR-rich)
Imputation: 1000G (multi-ancestry)

会导致:

  • haplotype mismatch
  • LD结构不匹配
  • INFO score下降
  • imputation R²下降

四、genetic_map 是否必须?

✔️ 必须(强烈建议)

Eagle2 需要:

--geneticMapFile genetic_map_chr20_combined_b37.txt

为什么?

Eagle2 是 HMM:

P(recombination) depends on genetic distance (cM)

没有 map:

physical distance ≠ recombination probability

genetic map 从哪里来?

✔️ 常用来源(官方)

Broad Institute / Eagle project:

genetic_map_hg19/GRCh37
genetic_map_hg38

下载路径:

https://alkesgroup.broadinstitute.org/Eagle/downloads/tables/

❗ 重要点

genetic map:

  • ❌ 不是 HRC 专属
  • ❌ 不是 1000G 专属
  • ✔️ 是 genome build 专属(GRCh37 / GRCh38)

五、sites.tab 能不能用 1000G 替代?

✔️ 可以,而且很常见

HRC sites.tab 用途:

QC / strand check / allele alignment

1000G 有没有类似文件?

✔️ 有,但形式不同:

1000G 常用 QC 替代方案:

1. 直接用 VCF panel

1000G Phase3 VCF

2. 自己生成 legend / sites

bcftools query
vcftools --freq

🔥 现实结论:

panelsites.tab
HRC官方提供
1000G❌ 通常没有官方 sites.tab
TOPMed❌ 通常不用 sites.tab

所以 pipeline 怎么处理?

1000G pipeline 通常:

PLINK QC
↓
VCF conversion
↓
Eagle
↓
Minimac

直接 skip sites.tab


六、总结(非常关键)

1️⃣ BCF vs MSAV

BCF → Eagle2 (phasing reference)
MSAV → Minimac4 (imputation reference)

2️⃣ Phasing vs Imputation reference

必须同一来源(HRC / 1000G / TOPMed)
但可以不同文件格式

3️⃣ genetic map

必须有
但只和 genome build 相关

4️⃣ sites.tab

HRC有官方
1000G一般不用
可以用VCF替代

如果你要做一个“本地 Michigan pipeline”

我可以帮你把这一套抽象成:

JSON DAG:
- QC node
- Phase node (Eagle2)
- Impute node (Minimac4)
- Reference abstraction layer (HRC / 1000G / TOPMed)

甚至可以直接帮你设计:

✔ Nextflow / Cromwell workflow schema
✔ scatter-chromosome execution
✔ reference-switch strategy

只要你说一声 👍