Github开源生信云平台 DEMO
不能直接把“每个 SNP 的 P 值”和“每个菌群丰度”做相关性分析
而真正可以建立联系的是样本级(genotype × microbiome) 数据
实际上就是把 SNP 当作自变量:
菌群丰度 ~ SNP + Age + Sex + BMI + PCA
例如:
Bacteroides ~ genotype + age + sex + PC1 + PC2
\text{abundance}=\beta_0+\beta_1\text{Genotype}+\beta_2\text{Age}+\cdots+\epsilon
那么生成的 890S.fam 不是 PLINK 自己创造 FID,而是直接复制 .ped 文件前 6 列
1 XJSCZ002 0 0 1 -9 2 XJSCZ003 0 0 2 -9
1 XJSCZ002 0 0 1 0 D D G G C C I I G G C C D D C C D D I I C > 2 XJSCZ003 0 0 2 0 D D G G C C I I G G C C D D C C D D I I C >
ped文件的第六列是0 fam文件的第六列变成-9
这是因为 PLINK 将 0 和 -9 都视为“缺失表型(missing phenotype)”,在某些转换过程中会统一规范化为 -9