PDF预览

Abstract

pubmed
同时进行变量选择，并提供对所选变量的系数的估计

Abstract

在过去的几年里，全基因组关联研究（GWAS）发现了许多新的遗传关联。这些已识别的变体可能有很多用途：更好地了解疾病病因、个性化医学、研究潜在生物学的新线索以及风险预测。最近，人们对使用GWAS进行风险预测的前景持怀疑态度，主要是因为与表型相关的变异的个体效应大小大多很小。然而，也有人认为，许多与疾病相关的变异尚未被识别，因此如果包括更多的变异，风险预测的前景可能会改善。

从风险预测的角度来看，对更多的预测因子进行平均是合理的，其中一些预测因子可能具有（有限的）预测能力，而一些实际上可能是噪声。其想法是，当组合在一起时，组合的小信号会产生比来自不相关预测因子的噪声更强的信号。

我们研究了用于估计疾病概率的模型构建的各个方面。我们比较了构建此类模型的不同方法，研究了交叉验证的实施如何影响结果，并研究了哪些SNP对预测最有用。对 Welcome Trust Case Control Consortium的GWAS进行调查。对于克罗恩病，我们在另一个GWAS上证实了我们的结果。我们的研究结果表明，使用比达到全基因组显著性的SNPs更多的SNPs，例如使用套索，可以改进风险预测模型的构建。

Wu et.al 2009最近使用支持向量机进行了一项类似的实验。在我们的论文中，我们进一步采取了几个步骤：（i）我们使用稀疏回归模型，该模型处理SNPs之间的相关性，以及疾病概率的产量估计；（ii）通过改变交叉验证的某些方面，我们严格检查了在构建预测模型的同一研究中选择重要SNP的效果；以及（iii）我们在完全不同的GWAS上评估所构建的预测模型之一。

稀疏回归方法，如lasso Tibshirani，1996和elastic net Zou and Hastie，2005，越来越多地用于高维环境[Hastieet.al ，2001]。这些方法的优点是，在回归模型中，它们同时进行变量选择，并提供对所选变量的系数的估计。在本文中，我们探讨了使用GWAS数据构建风险预测模型的方法。在Wu等人[2009]中，套索用于在GWAS数据中寻找重要的SNPs。在Park和Hastie[2008]中，稀疏回归方法被用于在较小的遗传关联研究中识别基因×基因的相互作用。然而，据我们所知，稀疏回归方法尚未用于在GWAS中构建预测模型，以估计疾病的概率并在独立数据集上验证这些概率。