GWAS 与 宏基因组数据整合

最后发布时间 : 2026-06-12 11:40:35 浏览量 :

不能直接把“每个 SNP 的 P 值”和“每个菌群丰度”做相关性分析

  • GWAS:每个 SNP 对应一个统计量(β、OR、P 值)
  • 宏基因组:每个样本对应一个菌群丰度

而真正可以建立联系的是样本级(genotype × microbiome) 数据

Samplers123rs456rs789BacteroidesPrevotellaBlautia
S1AAGGCC0.120.030.15
S2AGGTCT0.080.200.10
S3GGTTTT0.250.010.30

实际上就是把 SNP 当作自变量:

菌群丰度 ~ SNP + Age + Sex + BMI + PCA

例如:

 Bacteroides ~ genotype + age + sex + PC1 + PC2

\text{abundance}=\beta_0+\beta_1\text{Genotype}+\beta_2\text{Age}+\cdots+\epsilon

那么生成的 890S.fam 不是 PLINK 自己创造 FID,而是直接复制 .ped 文件前 6 列

1 XJSCZ002 0 0 1 -9
2 XJSCZ003 0 0 2 -9
1       XJSCZ002        0       0       1       0       D       D       G       G       C       C       I       I       G       G       C       C       D       D       C       C       D       D       I       I       C >
2       XJSCZ003        0       0       2       0       D       D       G       G       C       C       I       I       G       G       C       C       D       D       C       C       D       D       I       I       C >

ped文件的第六列是0 fam文件的第六列变成-9

这是因为 PLINK 将 0 和 -9 都视为“缺失表型(missing phenotype)”,在某些转换过程中会统一规范化为 -9