负二项 GLM 中求解dispersion的详细过程

最后发布时间 : 2025-02-11 20:57:48 浏览量 :

负二项广义线性模型(Negative Binomial GLM) 中,估计 dispersion(离散参数) 是关键的一步,它决定了模型如何处理数据的过度离散性。这里,我将详细介绍如何通过最大似然估计(MLE)来求解 dispersion 参数

背景

假设我们有一组数据,其中 y_i 是第 i 个观测值, X_i 是该观测值的自变量, \mu_i 是预测的均值。负二项分布的方差和均值之间的关系如下:

\text{Var}(Y_i) = \mu_i + \alpha \mu_i^2

其中 \mu_i 是响应变量的均值, \alpha 是 dispersion 参数。

负二项 GLM 中的模型

负二项 GLM 中的对数似然函数通常由两部分组成:

  • 系数部分:这是通过标准的广义线性模型(GLM)来估计的。
  • dispersion 部分:这部分通过估计 dispersion 参数来捕捉数据的过度离散性。

在负二项 GLM 中,假设响应变量 Y_i 的分布是负二项分布,参数 \mu_i (均值)和 \alpha (dispersion)是待估计的参数。

对数似然函数(Log-Likelihood Function)

负二项分布的概率质量函数(PMF)为:

P(y_i | \mu_i, \alpha) = \binom{y_i + \alpha - 1}{y_i} \left(\frac{\mu_i}{\mu_i + \alpha}\right)^{y_i} \left(\frac{\alpha}{\mu_i + \alpha}\right)^{\alpha}

其中:

  • \mu_i 是第 i 个样本的均值(通常是通过线性模型估计得到的)。
  • \alpha 是 dispersion 参数。

因此,对数似然函数是所有样本的对数概率的总和:

\ell(\mu, \alpha) = \sum_{i=1}^{n} \log \left( \binom{y_i + \alpha - 1}{y_i} \left( \frac{\mu_i}{\mu_i + \alpha} \right)^{y_i} \left( \frac{\alpha}{\mu_i + \alpha} \right)^{\alpha} \right)

最大似然估计(MLE)

最大似然估计的目标是通过最大化对数似然函数来估计模型参数(即自变量系数 \beta 和 dispersion 参数 \alpha )。

步骤 1:估计自变量系数 \beta

  • 首先,你可以使用 广义线性模型(GLM) 来估计自变量系数 \beta 。通常,假设 \mu_i = g^{-1}(X_i \beta) ,其中 g^{-1} 是链接函数,通常为对数链接: \mu_i = \exp(X_i \beta)

    通过最大化 对数似然函数(其中仅包含系数参数),可以得到 \beta 的估计值。

对于负二项分布的对数似然函数:

\ell(\beta, \alpha) = \sum_{i=1}^{n} \log \left( \binom{y_i + \alpha - 1}{y_i} \left( \frac{\mu_i}{\mu_i + \alpha} \right)^{y_i} \left( \frac{\alpha}{\mu_i + \alpha} \right)^{\alpha} \right)

这里,对数似然函数可以分离成两个部分

  • 自变量系数部分(依赖于 \mu_i ):
    \ell(\beta) = \sum_{i=1}^{n} \left[ y_i \log \left( \frac{\mu_i}{\mu_i + \alpha} \right) - \log(y_i!) \right]
  • dispersion 部分(依赖于 \alpha ):
    \ell(\alpha) = \sum_{i=1}^{n} \log \left( \binom{y_i + \alpha - 1}{y_i} \left( \frac{\alpha}{\mu_i + \alpha} \right)^{\alpha} \right)

第一阶段,我们通过最大化 自变量系数部分 来估计 \beta ,而不需要考虑 \alpha (dispersion)。这意味着,尽管 dispersion 参数会影响模型的方差结构,它对估计 \beta 并不直接影响。

步骤 2:估计 Dispersion 参数 \alpha

  • 在获得系数 \beta 的估计后,我们可以继续估计 dispersion 参数 \alpha 。估计过程通过最大化对数似然函数来进行:

    1. 简化对数似然函数
      在最大似然估计中,通常使用 逐步优化方法 来得到参数的最大似然估计。对数似然函数涉及到 \mu_i \alpha 两个未知参数,因此,首先要解决 \mu_i (即系数 \beta )的问题,然后估计 \alpha

    2. 负二项的拟合方差公式
      估计 dispersion \alpha 时,通常会使用 拟合方差残差平方和 的关系来计算。通过样本的 Pearson 残差Deviance 残差,我们可以估计 \alpha

      \hat{\alpha} = \frac{1}{n} \sum_{i=1}^{n} \frac{(y_i - \mu_i)^2}{\mu_i^2} - \frac{1}{n} \sum_{i=1}^{n} \frac{y_i}{\mu_i}

      这个公式基于负二项分布的方差公式,其中 \mu_i 是基于 X_i \beta 的预测均值。

步骤 3:优化和求解

  • 最后,使用 数值优化方法(如 牛顿-拉夫森法拟牛顿法BFGS 方法)来迭代地调整参数值,直到最大化对数似然函数,从而获得最优的 \beta \alpha 参数。

总结

  • 负二项 GLM 中,求解 dispersion 参数 \alpha 需要通过 最大似然估计(MLE) 来实现。
  • 首先估计自变量系数 \beta (通常通过标准的 GLM 方法),然后通过样本的方差、残差和拟合的均值来估计 dispersion \alpha
  • 这种估计方法能够更好地处理数据的过度离散性,使模型更加准确地反映数据的特征。