细解释 GT 的 0|0 这个位点的REF 和ALT 是 A G 为什么表示 REF/REF A/A ,为什么说是 phasing 过的 ,GP代表 A/A A/G G/G 等位基因出现的概率吗 DS 为什么 DS = 0×P(0/0) +1×P(0/1) +2×P(1/1) 这样计算

最后发布时间 : 2026-06-24 15:58:24 浏览量 :

这是理解 Imputation 结果的关键。我们从生物学角度一步一步讲。

你的位点:

CHROM=1
POS=55057

REF=A
ALT=G

GT:GP:DS
0|0:1,0,0:0

1 什么是 REF 和 ALT

VCF中:

REF=A
ALT=G

表示参考基因组(GRCh37/38)在这个位置是:

A

发现有人群中存在另一种碱基:

G

因此:

A = REF allele
G = ALT allele

2 为什么GT中的0表示A

VCF规范规定:

0 = REF
1 = 第一个ALT
2 = 第二个ALT
...

所以:

REF=A
ALT=G

对应:

| 编码 | 实际碱基 |
| -- | ---- |
| 0 | A |
| 1 | G |


因此:

0|0

实际就是:

A|A

而:

0|1

实际是:

A|G

而:

1|1

实际是:

G|G

3 为什么会有两个数字

因为人类是二倍体(diploid)。

每个常染色体:

一条来自父亲
一条来自母亲

例如:

chr1

你有:

父源chr1
母源chr1

因此每个位点都有两个等位基因。

例如:

父亲给A
母亲给G

则:

A/G

即:

0/1

4 为什么是 | 而不是 /

VCF中:

0/1

表示:

知道是杂合
不知道谁来自父亲谁来自母亲

称为:

Unphased

例如:

0/1

有两种可能:

父=A 母=G

或者:

父=G 母=A

无法区分。


而:

0|1

表示:

左边一条染色体
右边一条染色体

已经确定。

称为:

Phased genotype

5 为什么你的数据是 phased

因为你前面做过:

QC
↓
SHAPEIT4
↓
Minimac4

SHAPEIT4的核心任务就是:

Phasing

把:

0/1

变成:

0|1

举例:

原始芯片:

rs1 = A/G
rs2 = C/T

实际上可能是:

方案1:

父源:
A --- C

母源:
G --- T

或者:

方案2:

父源:
A --- T

母源:
G --- C

SHAPEIT4利用:

群体LD
参考面板

推断:

哪种组合更可能

得到:

A-C
G-T

这样的单倍型(haplotype)。

这就叫:

Phasing

6 GP是什么

GP:

Genotype Probability

即:

每种基因型的概率

对于二等位基因位点:

REF=A
ALT=G

只有三种可能:

编码实际基因型
0/0A/A
0/1A/G
1/1G/G

因此:

GP
=
P(0/0)
P(0/1)
P(1/1)

你的:

GP=1,0,0

表示:

P(A/A)=1

P(A/G)=0

P(G/G)=0

即:

100%确定是A/A

例如:

GP=0.1,0.7,0.2

表示:

A/A =10%
A/G =70%
G/G =20%

7 为什么DS这样计算

DS全称:

Dosage

实际上是:

ALT allele expected count

即:

ALT等位基因期望拷贝数

先看三种基因型拥有多少个ALT:

A/A

0个G

即:

ALT count = 0

A/G

1个G

即:

ALT count = 1

G/G

2个G

即:

ALT count = 2

因此:

基因型ALT数
A/A0
A/G1
G/G2

统计学里:

期望值:

E(X)
=
Σ
x·P(x)

这里:

X = ALT count

因此:

DS

=
0×P(A/A)
+
1×P(A/G)
+
2×P(G/G)

也就是:

DS

=
0×P(0/0)
+
1×P(0/1)
+
2×P(1/1)

8 举例

假设:

GP

0.1
0.7
0.2

即:

A/A =10%
A/G =70%
G/G =20%

那么:

DS

=
0×0.1
+
1×0.7
+
2×0.2

=
1.1

说明:

这个样本平均来说拥有:

1.1个G

9 为什么GWAS喜欢DS

PLINK1.9会把上面的结果变成:

GT=A/G

即:

1

直接用于回归。


而PLINK2会使用:

DS=1.1

因此:

A/G(非常确定)

A/G(很不确定)

可以被区分。


这正是 Imputation 的核心思想:

GT
=
最可能基因型

GP
=
各种基因型概率

DS
=
ALT拷贝数期望值

对于你的例子:

0|0:1,0,0:0

实际上等价于:

A|A

P(A/A)=100%

P(A/G)=0%

P(G/G)=0%

DS=0

说明这个样本在该位点非常确定地携带两个参考等位基因 A。