AsA芯片数据经过genomestudio处理后得到并经过plink 样本和基因型的质控后的map和bed文件如何使用 Michigan Imputation 分析

最后发布时间 : 2026-06-18 16:12:15 浏览量 :

你现在的状态已经到了 Imputation 前的数据准备阶段：

ASA 芯片
    ↓
GenomeStudio
    ↓
PLINK QC
    ↓
bed/bim/fam

接下来主要是：

PLINK
 ↓
VCF
 ↓
Michigan QC检查
 ↓
Phasing(Eagle)
 ↓
Imputation(Minimac4)
 ↓
下载结果

对于 ASA (Asian Screening Array)，目前最推荐的是：

Reference Panel:
TOPMed r2

因为亚洲人群覆盖明显优于 1000G。

第一步检查基因组版本

先确认你的 bim 文件坐标。

查看：

head data.bim

例如：

1 rs12345 0 123456 A G

第四列：

是坐标。

然后确认：

hg19 (GRCh37)
还是
hg38 (GRCh38)

ASA 常见情况：

芯片版本	Build
ASA v1	hg19
ASA v2	hg38

如果不知道：

查看 GenomeStudio 导出的 manifest。

第二步转换为 VCF

Michigan Server 要求：

每条染色体一个VCF

例如：

for chr in {1..22}
do
plink \
  --bfile asa_qc \
  --chr $chr \
  --recode vcf bgz \
  --out chr${chr}
done

得到：

chr1.vcf.gz
chr2.vcf.gz
...
chr22.vcf.gz

第三步修改样本ID（重要）

Michigan Server 推荐：

FID IID

唯一。

查看：

head data.fam

例如：

sample1 sample1
sample2 sample2

避免：

0 sample1
0 sample2

因为有时会报错。

可使用：

plink \
 --bfile asa_qc \
 --double-id \
 --make-bed \
 --out asa_qc2

第四步上传 Michigan Server

打开：

Michigan Imputation Server

注册账号。

创建 Job：

Create Job

上传：

chr1.vcf.gz
...
chr22.vcf.gz

第五步参数选择

对于 ASA 芯片亚洲人群，我建议：

Population

如果样本是中国人：

East Asian (EAS)

如果不确定：

Mixed

Phasing

选择：

Eagle v2.4

Reference Panel

选择：

TOPMed

不要选：

1000G

除非有兼容性要求。

Mode

选择：

Quality Control + Imputation

系统会自动执行：

Strand Check
Flip
Remove Ambiguous SNP
Imputation

第六步 Michigan 自动QC

上传后会出现：

Variants Uploaded
Variants Remaining

例如：

600000 uploaded
580000 matched

同时生成：

Exclude.txt

包含：

A/T
C/G
Position mismatch
Allele mismatch

这些被自动剔除。

第七步等待计算

500样本：

ASA
600K SNP
TOPMed

一般：

30分钟~4小时

完成。

第八步下载结果

得到：

chr1.dose.vcf.gz
chr2.dose.vcf.gz
...

以及：

info.gz

INFO评分。

第九步 Imputation QC

过滤低质量位点。

例如：

bcftools view \
-i 'INFO/R2>0.8' \
chr1.dose.vcf.gz \
-Oz \
-o chr1.filtered.vcf.gz

或者：

plink2 \
 --vcf chr1.dose.vcf.gz dosage=DS \
 --maf 0.01 \
 --make-pgen \
 --out chr1

常用标准：

R² > 0.8
MAF > 0.01

第十步转换为 GWAS 输入格式

例如：

plink2 \
 --vcf chr1.filtered.vcf.gz dosage=DS \
 --make-pgen \
 --out gwas_chr1

得到：

.pgen
.pvar
.psam

然后用于：

PLINK 2.0
SAIGE
REGENIE

对于你目前的 ASA → GenomeStudio → PLINK QC → bed/bim/fam，我建议先不要直接转 VCF 上传，而是增加一个步骤：

PLINK QC
   ↓
HRC/TopMed preparation
   ↓
Michigan Server

即先运行官方的 HRC/1000G checking script，提前修正：

SNP ID
Strand
Position
Allele

这样上传后匹配率通常能从：

85~90%

提高到：

95~99%

这是实际 GWAS 项目中最标准的做法。对于 ASA 芯片，我可以进一步给你一套 从 bed/bim/fam 到 Michigan Server 的完整生产级脚本（按染色体拆分、HRC check、VCF生成、上传参数）。

GWAS 基因型填充的流程

AsA芯片 数据经过genomestudio处理后得到并经过plink 样本和基因型的质控后的map和bed文件 如何使用 Michigan Imputation 分析

第一步 检查基因组版本

第二步 转换为 VCF

第三步 修改样本ID（重要）

第四步 上传 Michigan Server

第五步 参数选择