pubmed
同时进行变量选择,并提供对所选变量的系数的估计

Abstract

在过去的几年里,全基因组关联研究(GWAS)发现了许多新的遗传关联。这些已识别的变体可能有很多用途:更好地了解疾病病因、个性化医学、研究潜在生物学的新线索以及风险预测。最近,人们对使用GWAS进行风险预测的前景持怀疑态度,主要是因为与表型相关的变异的个体效应大小大多很小。然而,也有人认为,许多与疾病相关的变异尚未被识别,因此如果包括更多的变异,风险预测的前景可能会改善。

从风险预测的角度来看,对更多的预测因子进行平均是合理的,其中一些预测因子可能具有(有限的)预测能力,而一些实际上可能是噪声。其想法是,当组合在一起时,组合的小信号会产生比来自不相关预测因子的噪声更强的信号。

我们研究了用于估计疾病概率的模型构建的各个方面。我们比较了构建此类模型的不同方法,研究了交叉验证的实施如何影响结果,并研究了哪些SNP对预测最有用。对 Welcome Trust Case Control Consortium的GWAS进行调查。对于克罗恩病,我们在另一个GWAS上证实了我们的结果。我们的研究结果表明,使用比达到全基因组显著性的SNPs更多的SNPs,例如使用套索,可以改进风险预测模型的构建。

Wu et.al 2009最近使用支持向量机进行了一项类似的实验。在我们的论文中,我们进一步采取了几个步骤:(i)我们使用稀疏回归模型,该模型处理SNPs之间的相关性,以及疾病概率的产量估计;(ii)通过改变交叉验证的某些方面,我们严格检查了在构建预测模型的同一研究中选择重要SNP的效果;以及(iii)我们在完全不同的GWAS上评估所构建的预测模型之一。

稀疏回归方法,如lasso Tibshirani,1996elastic net Zou and Hastie,2005,越来越多地用于高维环境[Hastieet.al ,2001]。这些方法的优点是,在回归模型中,它们同时进行变量选择,并提供对所选变量的系数的估计。在本文中,我们探讨了使用GWAS数据构建风险预测模型的方法。在Wu等人[2009]中,套索用于在GWAS数据中寻找重要的SNPs。在Park和Hastie[2008]中,稀疏回归方法被用于在较小的遗传关联研究中识别基因×基因的相互作用。然而,据我们所知,稀疏回归方法尚未用于在GWAS中构建预测模型,以估计疾病的概率并在独立数据集上验证这些概率。