Minimac4 imputation 输出 VCF 文件

最后发布时间 : 2026-06-24 15:06:43 浏览量 :

这是标准的 Minimac4 imputation 输出 VCF 文件

对于这个文件:

551S-autosomes.imputed.dose.vcf.gz

可以理解为:

  • 每一行(Variant Record) = 一个 SNP 位点
  • 每一列(Sample Column) = 一个样本在该 SNP 的基因型信息

1. VCF整体结构

VCF分为两部分:

## 开头:

##fileformat=VCFv4.2
##source=Minimac v4.1.6
...

描述文件信息。


表头

#CHROM 开头:

#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT SYSCZ034 SYSCZ037 ...

这一行定义后面每列含义。


2. 一条记录代表什么

例如:

1 55057 1:55057:A:G A G . . IMPUTED;AF=0.00310291;MAF=0.00310291;AVG_CS=0.999583;R2=0.874246 GT:GP:DS 0|0:1,0,0:0 0|0:1,0,0:0

表示:

chr1 的 55057 位置有一个 A→G SNP


3. 前9列解释

VCF固定前9列:

内容
CHROM染色体
POS坐标
ID位点ID
REF参考等位基因
ALT替代等位基因
QUAL质量
FILTER过滤状态
INFO位点信息
FORMAT样本字段格式

CHROM

1

表示:

chr1

POS

55057

染色体位置。


ID

1:55057:A:G

位点名称:

chr1:55057 A→G

REF

A

参考基因组上的碱基。


ALT

G

变异碱基。


4. INFO字段

你的例子:

IMPUTED;
AF=0.00310291;
MAF=0.00310291;
AVG_CS=0.999583;
R2=0.874246

IMPUTED

说明:

该位点是填充出来的

不是芯片直接测到的。


AF

AF=0.00310291

Alternate Allele Frequency

ALT等位基因频率:

G频率=0.31%

MAF

MAF=0.00310291

Minor Allele Frequency

最小等位基因频率。


AVG_CS

AVG_CS=0.999583

Average Call Score

填充置信度。

越接近1越好。


R2

R2=0.874246

Imputation Quality

这是GWAS最常用指标。

通常:

评价
>0.8很好
0.5-0.8可接受
<0.3建议过滤

因此:

R2=0.874

质量很好。


5. FORMAT字段

GT:GP:DS

表示每个样本列由三部分组成:

GT
GP
DS

6. GT字段

例如:

0|0

表示基因型。

编码:

| GT | 含义 |
| -- | --- |
| 0 | REF |
| 1 | ALT |

因此:

0|0

表示:

A/A

如果:

0|1

表示:

A/G

如果:

1|1

表示:

G/G

7. 为什么有竖线 |

例如:

0|1

不是:

0/1

因为经过了 Phasing。

表示:

父源 = REF
母源 = ALT

已经知道单倍型结构。


8. GP字段

例如:

1,0,0

对应:

P(0/0)
P(0/1)
P(1/1)

即:

100%
0%
0%

例如:

0.1,0.8,0.1

表示:

GenotypeProbability
0/010%
0/180%
1/110%

9. DS字段(最重要)

Dosage。

定义:

DS = P(0/1) + 2 × P(1/1)

范围:

0 ~ 2

例1:

1,0,0

即:

DS = 0

例2:

0,1,0

即:

DS = 1

例3:

0,0,1

即:

DS = 2

例4(填充最常见)

0.05,0.80,0.15

则:

DS
=
0.80 + 2×0.15
=
1.10

10. 样本列

例如:

SYSCZ034
0|0:1,0,0:0

拆开:

GT = 0|0
GP = 1,0,0
DS = 0

表示:

A/A

且置信度100%。


11. 这一行完整解释

1 55057 1:55057:A:G

表示:

chr1:55057

A → G

位点统计:

AF=0.0031
R2=0.874

说明:

  • ALT频率0.31%
  • 填充质量很好

样本:

SYSCZ034
0|0:1,0,0:0

表示:

A/A

样本:

SYSCZ037
0|0:1,0,0:0

表示:

A/A

12. 你的文件共有多少 SNP 和样本

直接统计:

# 样本数
bcftools query -l 551S-autosomes.imputed.dose.vcf.gz | wc -l

# SNP数
bcftools view -H -v snps 551S-autosomes.imputed.dose.vcf.gz | wc -l

# 所有变异
bcftools view -H 551S-autosomes.imputed.dose.vcf.gz | wc -l

13. GWAS实际使用哪个字段

大多数 GWAS 软件:

  • PLINK2
  • REGENIE
  • BOLT-LMM
  • SAIGE

对于 imputation 数据通常使用:

DS (dosage)

而不是:

GT

因为 DS 保留了填充不确定性。

例如:

GT=0|1
DS=0.82

比强行转换成

GT=0|1

包含更多信息。

所以你的 .dose.vcf.gz 本质上就是:

551个样本 × 数百万个 SNP 的剂量矩阵(Dosage Matrix),每行一个 SNP,每列一个样本,DS 字段是后续 GWAS 最重要的数据。