Github开源生信云平台 DEMO
你现在的状态已经到了 Imputation 前的数据准备阶段:
ASA 芯片 ↓ GenomeStudio ↓ PLINK QC ↓ bed/bim/fam
接下来主要是:
PLINK ↓ VCF ↓ Michigan QC检查 ↓ Phasing(Eagle) ↓ Imputation(Minimac4) ↓ 下载结果
对于 ASA (Asian Screening Array),目前最推荐的是:
Reference Panel: TOPMed r2
因为亚洲人群覆盖明显优于 1000G。
先确认你的 bim 文件坐标。
查看:
head data.bim
例如:
1 rs12345 0 123456 A G
第四列:
123456
是坐标。
然后确认:
hg19 (GRCh37) 还是 hg38 (GRCh38)
ASA 常见情况:
如果不知道:
查看 GenomeStudio 导出的 manifest。
Michigan Server 要求:
每条染色体一个VCF
for chr in {1..22} do plink \ --bfile asa_qc \ --chr $chr \ --recode vcf bgz \ --out chr${chr} done
得到:
chr1.vcf.gz chr2.vcf.gz ... chr22.vcf.gz
Michigan Server 推荐:
FID IID
唯一。
head data.fam
sample1 sample1 sample2 sample2
避免:
0 sample1 0 sample2
因为有时会报错。
可使用:
plink \ --bfile asa_qc \ --double-id \ --make-bed \ --out asa_qc2
打开:
Michigan Imputation Server
注册账号。
创建 Job:
Create Job
上传:
chr1.vcf.gz ... chr22.vcf.gz
对于 ASA 芯片亚洲人群,我建议:
如果样本是中国人:
East Asian (EAS)
如果不确定:
Mixed
选择:
Eagle v2.4
TOPMed
不要选:
1000G
除非有兼容性要求。
Quality Control + Imputation
系统会自动执行:
Strand Check Flip Remove Ambiguous SNP Imputation
上传后会出现:
Variants Uploaded Variants Remaining
600000 uploaded 580000 matched
同时生成:
Exclude.txt
包含:
A/T C/G Position mismatch Allele mismatch
这些被自动剔除。
500样本:
ASA 600K SNP TOPMed
一般:
30分钟~4小时
完成。
chr1.dose.vcf.gz chr2.dose.vcf.gz ...
以及:
info.gz
INFO评分。
过滤低质量位点。
bcftools view \ -i 'INFO/R2>0.8' \ chr1.dose.vcf.gz \ -Oz \ -o chr1.filtered.vcf.gz
或者:
plink2 \ --vcf chr1.dose.vcf.gz dosage=DS \ --maf 0.01 \ --make-pgen \ --out chr1
常用标准:
R² > 0.8 MAF > 0.01
plink2 \ --vcf chr1.filtered.vcf.gz dosage=DS \ --make-pgen \ --out gwas_chr1
.pgen .pvar .psam
然后用于:
对于你目前的 ASA → GenomeStudio → PLINK QC → bed/bim/fam,我建议先不要直接转 VCF 上传,而是增加一个步骤:
PLINK QC ↓ HRC/TopMed preparation ↓ Michigan Server
即先运行官方的 HRC/1000G checking script,提前修正:
这样上传后匹配率通常能从:
85~90%
提高到:
95~99%
这是实际 GWAS 项目中最标准的做法。对于 ASA 芯片,我可以进一步给你一套 从 bed/bim/fam 到 Michigan Server 的完整生产级脚本(按染色体拆分、HRC check、VCF生成、上传参数)。