Github开源生信云平台 DEMO
这是标准的 Minimac4 imputation 输出 VCF 文件。
对于这个文件:
551S-autosomes.imputed.dose.vcf.gz
可以理解为:
VCF分为两部分:
以 ## 开头:
##
##fileformat=VCFv4.2 ##source=Minimac v4.1.6 ...
描述文件信息。
以 #CHROM 开头:
#CHROM
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT SYSCZ034 SYSCZ037 ...
这一行定义后面每列含义。
例如:
1 55057 1:55057:A:G A G . . IMPUTED;AF=0.00310291;MAF=0.00310291;AVG_CS=0.999583;R2=0.874246 GT:GP:DS 0|0:1,0,0:0 0|0:1,0,0:0
表示:
chr1 的 55057 位置有一个 A→G SNP
VCF固定前9列:
1
chr1
55057
染色体位置。
1:55057:A:G
位点名称:
chr1:55057 A→G
A
参考基因组上的碱基。
G
变异碱基。
你的例子:
IMPUTED; AF=0.00310291; MAF=0.00310291; AVG_CS=0.999583; R2=0.874246
说明:
该位点是填充出来的
不是芯片直接测到的。
AF=0.00310291
Alternate Allele Frequency
ALT等位基因频率:
G频率=0.31%
MAF=0.00310291
Minor Allele Frequency
最小等位基因频率。
AVG_CS=0.999583
Average Call Score
填充置信度。
越接近1越好。
R2=0.874246
Imputation Quality
这是GWAS最常用指标。
通常:
因此:
R2=0.874
质量很好。
GT:GP:DS
表示每个样本列由三部分组成:
GT GP DS
0|0
表示基因型。
编码:
| GT | 含义 || -- | --- || 0 | REF || 1 | ALT |
A/A
如果:
0|1
A/G
1|1
G/G
不是:
0/1
因为经过了 Phasing。
父源 = REF 母源 = ALT
已经知道单倍型结构。
1,0,0
对应:
P(0/0) P(0/1) P(1/1)
即:
100% 0% 0%
0.1,0.8,0.1
Dosage。
定义:
DS = P(0/1) + 2 × P(1/1)
范围:
0 ~ 2
例1:
DS = 0
例2:
0,1,0
DS = 1
例3:
0,0,1
DS = 2
例4(填充最常见)
0.05,0.80,0.15
则:
DS = 0.80 + 2×0.15 = 1.10
SYSCZ034 0|0:1,0,0:0
拆开:
GT = 0|0 GP = 1,0,0 DS = 0
且置信度100%。
1 55057 1:55057:A:G
chr1:55057
A → G
位点统计:
AF=0.0031 R2=0.874
样本:
SYSCZ037 0|0:1,0,0:0
直接统计:
# 样本数 bcftools query -l 551S-autosomes.imputed.dose.vcf.gz | wc -l # SNP数 bcftools view -H -v snps 551S-autosomes.imputed.dose.vcf.gz | wc -l # 所有变异 bcftools view -H 551S-autosomes.imputed.dose.vcf.gz | wc -l
大多数 GWAS 软件:
对于 imputation 数据通常使用:
DS (dosage)
而不是:
GT
因为 DS 保留了填充不确定性。
GT=0|1 DS=0.82
比强行转换成
GT=0|1
包含更多信息。
所以你的 .dose.vcf.gz 本质上就是:
.dose.vcf.gz
551个样本 × 数百万个 SNP 的剂量矩阵(Dosage Matrix),每行一个 SNP,每列一个样本,DS 字段是后续 GWAS 最重要的数据。