变异注释
最后发布时间 : 2023-08-14 13:48:20
浏览量 :
我们得到变异位点,但仅仅是知道了它们在基因组上的位置信息和相关的碱基信息。那么还存在许许多多的疑问没有解决:
这个位点是在基因上吗?是内含子还是外显子区域?这个突变对基因功能产生了什么影响?对于转录翻译有没有影响?除了研究的样本,还有没有其他样本也出现了这个变异?有的话是什么人种,又是什么病例?
这些问题都要靠变异注释来解决
一般来说,变异注释分为:突变频率注释、变异的蛋白功能危害注释、剪切位点突变危害注释、突变相关的疾病注释
突变频率注释
做这个内容的数据库有许多,其中比较重要的有dbSNP、1000人基因组项目(1000 Genome)、ExAC、gnomeAD
- dbSNP(The single-nucleotide polymorphism database):http://www.ncbi.nlm.nih.gov/SNP/ NCBI与人类基因组研究所合作建立,包含了SNP、短重复序列、微卫星标记等来源、检测方法、基因型信息、上下游序列、人群分布频率等
- 1000G (千人基因组项目) 研究时限:2008-2015年;汇集30个人种、3904个样本WGS和WES测序结果。目前已被ANNOVAR收纳为变异位点在正常人群中进行突变频率注释的数据库,实际分析中也应该将1000G的不同人群作为control组进行疾病关联分析
- ExAC(Exome Aggregation Consortium):整合了60706个人的WES测序数据及相关遗传信息,包含超过1000万种基因变异信息 http://exac.broadinstitute.org/ 。包括了AFR(African)、AMR(Admixed American)、EAS(East Asian)、FIN(Finnish)、NFE(NON-finnish European)、SAS(South Asia)等种群的突变频率(AF)信息http://exac.broadinstitute.org/faq
- gnomeAD:(Genome Aggregation Database)博得研究所支持建立,包含了千人基因组、ESP数据库以及绝大部分的ExAC数据库。目前有125,748个外显子数据和15,708个基因组数据 http://gnomad.broadinstitute.org/,这些数据来自大型人群测序和疾病研究项目
变异的蛋白功能危害注释
- PROVEAN:(Protein Variation Effect Analyzer)http://provean.jcvi.org/index.php 用来预测SNP或者InDel是否影响蛋白质的生物功能,不仅可以对CDS区域的非同义突变进行预测,还可以对CDS区域的非移码InDel对蛋白功能的影响进行预测,并将结果大致分为:危害、可以容忍、无害
- SIFT:(Sorting Intolerant From Tolerant)https://sift.bii.a-star.edu.sg/ 根据氨基酸在蛋白序列中的保守程度来预测氨基酸的变化对蛋白功能造成的影响。其中保守程度是比对进化关系较近的蛋白序列得到,分值(SIFT-score)表示突变对蛋白序列的影响,分值越小越严重 ,一般认为:SIFT值小于0.05为有害(D:Deleterious),大于0.05表示容忍(T:Tolerance)
- Polyphen2_HAVR: (Polymorphism Phenotyping v2) http://genetics.bwh.harvard.edu/pph2/dokuwiki/downloads 根据HumanVar数据库预测突变对蛋白的影响,来诊断孟德尔遗传病。分值表示SNP导致蛋白结构或功能改变的可能性,越大越严重
- Polyphen2_HDIV: 根据HumanDiv数据库预测**,分值越大越严重**
- LRT:也是基于序列保守性进行预测(像SIFT和Polyphen)http://www.genetics.wustl.edu/jflab/lrt_query.html 。对每一个测试的密码子,LRT将来自31个物种的氨基酸进行比对来预测突变的危害。结果的**有害突变(D:Deleterious)**表示:突变来自高度保守的密码子;突变氨基酸在其他比对的真核哺乳动物中不存在。**中性突变(N: Neutral)**表示:突变发生在非高度保守的密码子;突变的氨基酸至少在一个进行比对的真核哺乳动物中发现
剪切位点突变危害注释
如果突变发生在剪切位点附近,我们可以判断它对剪切的危害。可以用的软件有:DbscSNV、Spidex、MaxEntScan
- DbscSNV:属于VEP(Variant Effect Predictor)插件,http://asia.ensembl.org/info/docs/tools/vep/script/vep_plugins.html#plugins_existing。由AdaBoost与Random Forest开发,它根据突变前后分值的变化来预测剪切位点的突变危害性
- Spidex:http://www.openbioinformatics.org/annovar/spidex_download_form.php 基于深度学习,因此预测的剪切变异可能距离常规的剪切位点比较远(这一点和DbscSNV不同)
- MaxEntScan:对5’剪切位点附近的6bp内含子与3bp的编码区(http://genes.mit.edu/burgelab/maxent/Xmaxentscan_scoreseq.html)以及3‘ 剪切位点附近20bp的内含子与3bp的编码区内突变进行预测(http://genes.mit.edu/burgelab/maxent/Xmaxentscan_scoreseq_acc.html),按照突变前后分值变化来得到结论(认为有危害:突变后比突变前分值降低15%以上)
突变相关的疾病注释
- OMIM:(Online Mendelian Inheritance in Man)https://www.omim.org/在线人类孟德尔遗传信息数据库,包含了遗传性的基因疾病信息与表型信息,目前收录了16000多个基因词条和5400多表型词条
- HGMD:(The Human Gene Mutation Database)1996年创立的人类基因突变数据库,目前包括240,269个变异,覆盖9976个基因。收集的突变包含了SNP、InDel、CNV、SV、基因重组等,可以说是遗传病变异检测金标准数据库。有两个版本,一个是免费的学术public版,但更新慢(http://www.hgmd.cf.ac.uk/ac/index.php);另一个是收费可试用的Professional版(https://www.qiagenbioinformatics.com/products/human-gene-mutation-database/),包含的变异数量也更多
- ClinVar:2013年创立,是一个已报道突变与疾病表型关联数据库,https://www.ncbi.nlm.nih.gov/clinvar/。数据主要来源是OMIM、dbSNP、locus specific database等开源数据库,对变异位点的审核比较缺乏,因此会包含报道中冲突的致病位点