AsA芯片 数据经过genomestudio处理后得到并经过plink 样本和基因型的质控后的map和bed文件 如何使用 Michigan Imputation 分析

最后发布时间 : 2026-06-18 16:12:15 浏览量 :

你现在的状态已经到了 Imputation 前的数据准备阶段

ASA 芯片
    ↓
GenomeStudio
    ↓
PLINK QC
    ↓
bed/bim/fam

接下来主要是:

PLINK
 ↓
VCF
 ↓
Michigan QC检查
 ↓
Phasing(Eagle)
 ↓
Imputation(Minimac4)
 ↓
下载结果

对于 ASA (Asian Screening Array),目前最推荐的是:

Reference Panel:
TOPMed r2

因为亚洲人群覆盖明显优于 1000G。


第一步 检查基因组版本

先确认你的 bim 文件坐标。

查看:

head data.bim

例如:

1 rs12345 0 123456 A G

第四列:

123456

是坐标。

然后确认:

hg19 (GRCh37)
还是
hg38 (GRCh38)

ASA 常见情况:

芯片版本Build
ASA v1hg19
ASA v2hg38

如果不知道:

查看 GenomeStudio 导出的 manifest。


第二步 转换为 VCF

Michigan Server 要求:

每条染色体一个VCF

例如:

for chr in {1..22}
do
plink \
  --bfile asa_qc \
  --chr $chr \
  --recode vcf bgz \
  --out chr${chr}
done

得到:

chr1.vcf.gz
chr2.vcf.gz
...
chr22.vcf.gz

第三步 修改样本ID(重要)

Michigan Server 推荐:

FID IID

唯一。

查看:

head data.fam

例如:

sample1 sample1
sample2 sample2

避免:

0 sample1
0 sample2

因为有时会报错。

可使用:

plink \
 --bfile asa_qc \
 --double-id \
 --make-bed \
 --out asa_qc2

第四步 上传 Michigan Server

打开:

Michigan Imputation Server

注册账号。


创建 Job:

Create Job

上传:

chr1.vcf.gz
...
chr22.vcf.gz

第五步 参数选择

对于 ASA 芯片亚洲人群,我建议:

Population

如果样本是中国人:

East Asian (EAS)

如果不确定:

Mixed

Phasing

选择:

Eagle v2.4

Reference Panel

选择:

TOPMed

不要选:

1000G

除非有兼容性要求。


Mode

选择:

Quality Control + Imputation

系统会自动执行:

Strand Check
Flip
Remove Ambiguous SNP
Imputation

第六步 Michigan 自动QC

上传后会出现:

Variants Uploaded
Variants Remaining

例如:

600000 uploaded
580000 matched

同时生成:

Exclude.txt

包含:

A/T
C/G
Position mismatch
Allele mismatch

这些被自动剔除。


第七步 等待计算

500样本:

ASA
600K SNP
TOPMed

一般:

30分钟~4小时

完成。


第八步 下载结果

得到:

chr1.dose.vcf.gz
chr2.dose.vcf.gz
...

以及:

info.gz

INFO评分。


第九步 Imputation QC

过滤低质量位点。

例如:

bcftools view \
-i 'INFO/R2>0.8' \
chr1.dose.vcf.gz \
-Oz \
-o chr1.filtered.vcf.gz

或者:

plink2 \
 --vcf chr1.dose.vcf.gz dosage=DS \
 --maf 0.01 \
 --make-pgen \
 --out chr1

常用标准:

R² > 0.8
MAF > 0.01

第十步 转换为 GWAS 输入格式

例如:

plink2 \
 --vcf chr1.filtered.vcf.gz dosage=DS \
 --make-pgen \
 --out gwas_chr1

得到:

.pgen
.pvar
.psam

然后用于:

  • PLINK 2.0
  • SAIGE
  • REGENIE

对于你目前的 ASA → GenomeStudio → PLINK QC → bed/bim/fam,我建议先不要直接转 VCF 上传,而是增加一个步骤:

PLINK QC
   ↓
HRC/TopMed preparation
   ↓
Michigan Server

即先运行官方的 HRC/1000G checking script,提前修正:

  • SNP ID
  • Strand
  • Position
  • Allele

这样上传后匹配率通常能从:

85~90%

提高到:

95~99%

这是实际 GWAS 项目中最标准的做法。对于 ASA 芯片,我可以进一步给你一套 从 bed/bim/fam 到 Michigan Server 的完整生产级脚本(按染色体拆分、HRC check、VCF生成、上传参数)