计算负二项 GLM 自变量系数显著性的详细过程

最后发布时间 : 2025-02-11 22:15:24 浏览量 :

负二项广义线性模型(Negative Binomial GLM) 中,计算 自变量系数( \beta 的显著性通常依赖于 最大似然估计(MLE) 和假设检验。最常用的方法是通过 Wald检验似然比检验(Likelihood Ratio Test, LRT) 来计算 \beta 的显著性。以下是计算过程的详细步骤。

1. 负二项 GLM 模型概述

假设响应变量 y_i 服从负二项分布,其中均值 \mu_i 由自变量 X_i 和自变量系数 \beta 决定,通常采用对数链接函数来建模:

\mu_i = \exp(X_i \beta)

其中:

  • \mu_i 是响应变量 y_i 的均值。
  • X_i 是自变量(设计矩阵)。
  • \beta 是自变量的系数。
  • \alpha 是 dispersion 参数,描述数据的过度离散性。

2. 计算自变量系数 \beta 的最大似然估计

负二项 GLM 通过 最大似然估计(MLE) 来估计系数 \beta 和 dispersion 参数 \alpha

对数似然函数为:

\ell(\beta, \alpha) = \sum_{i=1}^{n} \log \left( \binom{y_i + \alpha - 1}{y_i} \left( \frac{\mu_i}{\mu_i + \alpha} \right)^{y_i} \left( \frac{\alpha}{\mu_i + \alpha} \right)^{\alpha} \right)
  • 其中, \mu_i = \exp(X_i \beta)
  • 通过最大化对数似然函数,可以得到 \beta \alpha 的估计值。

3. 估计标准误差(Standard Error)

为了计算自变量系数的显著性,我们需要估计每个系数的标准误差(Standard Error, SE)。标准误差反映了估计值的精确度。

标准误差的计算通常依赖于 信息矩阵(Information Matrix)。信息矩阵是对 负二项分布 对数似然函数的二阶导数(Hessian 矩阵)。它给出了系数估计值的协方差矩阵。

  1. 信息矩阵的计算:
    信息矩阵 I(\beta) 是对数似然函数的二阶导数的负值,通常可以通过数值优化过程计算得到。对于 \beta 的每个分量,信息矩阵的对角元素提供了系数的方差。

  2. 标准误差
    系数 \beta_j 的标准误差是信息矩阵的对角元素的平方根:

    SE(\hat{\beta}_j) = \sqrt{ \left[ I(\beta)^{-1} \right]_{jj} }

    其中 I(\beta)^{-1} 是信息矩阵的逆矩阵, \left[ I(\beta)^{-1} \right]_{jj} \beta_j 对应的方差。

4. 计算 Wald 检验统计量

Wald 检验用于检验某个自变量系数是否显著。在负二项 GLM 中,Wald 检验的统计量可以计算为:

W_j = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)}
  • 其中 \hat{\beta}_j \beta_j 的估计值, SE(\hat{\beta}_j) 是其标准误差。

Wald 统计量遵循 标准正态分布,即:

W_j \sim N(0, 1)

5. 计算 p 值

根据 Wald 统计量 W_j ,可以计算对应的 p 值,用于检验自变量系数是否显著。

  • 双尾检验:计算 p 值为

    p = 2 \cdot P(|Z| > |W_j|)

    其中 Z \sim N(0, 1) 为标准正态分布。

  • 如果 p -值小于显著性水平(如 0.05),则可以拒绝原假设,认为该自变量对响应变量有显著影响。

6. 似然比检验(Likelihood Ratio Test, LRT)

除了 Wald 检验,似然比检验(LRT)也是检验系数显著性的一种常见方法。LRT 检验通过比较 完整模型简化模型 的对数似然值来进行。

  1. 完整模型:包含所有自变量和 dispersion 参数。
  2. 简化模型:通常通过去除某些自变量(例如某个特定的 \beta_j )来构建。

LRT 统计量的计算公式为:

\text{LRT} = 2 \left[ \ell(\hat{\beta}, \hat{\alpha}) - \ell(\hat{\beta}^{(0)}, \hat{\alpha}^{(0)}) \right]

其中 \ell(\hat{\beta}, \hat{\alpha}) 是完整模型的对数似然, \ell(\hat{\beta}^{(0)}, \hat{\alpha}^{(0)}) 是简化模型的对数似然。

LRT 统计量服从 卡方分布(Chi-square distribution),自由度为模型之间参数数量的差异(通常是去除的系数个数)。

7. 总结

计算负二项 GLM 中自变量系数显著性的步骤如下:

  1. 最大似然估计:通过最大化对数似然函数,估计自变量系数 \beta 和 dispersion 参数 \alpha
  2. 估计标准误差:通过信息矩阵计算标准误差 SE(\hat{\beta}_j)
  3. Wald 检验:计算 Wald 统计量 W_j = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)} ,并基于此计算 p 值来检验系数的显著性。
  4. 似然比检验(可选):通过比较完整模型和简化模型的对数似然值,计算似然比统计量来检验系数显著性。

通过这些方法,可以评估自变量系数 \beta 是否对响应变量有显著影响。

负二项广义线性模型(Negative Binomial GLM) 中,Wald 检验 用于检验自变量系数 \beta_j 的显著性。在计算 Wald 统计量时,虽然我们关注的是自变量系数 \beta_j 的估计值和标准误差,但实际上 dispersion 参数 \alpha 也间接影响了 Wald 检验的结果,主要体现在 标准误差(Standard Error, SE) 的计算上。

Wald 检验的基本公式

Wald 统计量是基于自变量系数 \beta_j 的估计值和其标准误差计算的:

W_j = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)}

其中:

  • \hat{\beta}_j 是自变量系数 \beta_j 的最大似然估计值。
  • SE(\hat{\beta}_j) \beta_j 的标准误差。

标准误差的计算依赖于信息矩阵(信息矩阵是对数似然函数的二阶导数),而信息矩阵本身涉及了 dispersion 参数 \alpha 。因此,尽管 Wald 统计量的计算看似只涉及 \hat{\beta}_j 和其标准误差,但 dispersion 参数 \alpha 会影响 标准误差 的计算。

标准误差与 Dispersion 参数的关系

负二项分布中,响应变量的方差和均值之间的关系由 dispersion 参数 \alpha 控制:

\text{Var}(y_i) = \mu_i + \alpha \mu_i^2

其中,\mu_i 是响应变量 y_i 的均值,\alpha 是 dispersion 参数。

负二项 GLM 中,标准误差 SE(\hat{\beta}_j) 的计算涉及了 方差-covariance 矩阵,它会受到 \alpha 的影响。具体来说:

  1. 信息矩阵的计算:信息矩阵是对数似然函数的二阶导数,它包含了模型的 参数协方差 信息,包括 \beta_j 的方差。
  2. 方差与 dispersion:由于 dispersion 参数 \alpha 控制了方差结构,因此 \alpha 会影响模型的方差估计,从而影响每个系数的标准误差。

Dispersion 在 Wald 检验中的作用

计算标准误差时,dispersion 参数 \alpha 通过 协方差矩阵影响 \beta_j 的方差。即:

  • \alpha 较大时,模型的方差会增加,导致自变量系数的标准误差增大,进而影响 Wald 检验的统计量。
  • \alpha 较小时,模型的方差较小,系数的标准误差也会变小,Wald 检验的统计量可能较大。