在 负二项广义线性模型(Negative Binomial GLM) 中,计算 自变量系数( \beta ) 的显著性通常依赖于 最大似然估计(MLE) 和假设检验。最常用的方法是通过 Wald检验 或 似然比检验(Likelihood Ratio Test, LRT) 来计算 \beta 的显著性。以下是计算过程的详细步骤。
假设响应变量 y_i 服从负二项分布,其中均值 \mu_i 由自变量 X_i 和自变量系数 \beta 决定,通常采用对数链接函数来建模:
其中:
负二项 GLM 通过 最大似然估计(MLE) 来估计系数 \beta 和 dispersion 参数 \alpha 。
对数似然函数为:
为了计算自变量系数的显著性,我们需要估计每个系数的标准误差(Standard Error, SE)。标准误差反映了估计值的精确度。
标准误差的计算通常依赖于 信息矩阵(Information Matrix)。信息矩阵是对 负二项分布 对数似然函数的二阶导数(Hessian 矩阵)。它给出了系数估计值的协方差矩阵。
信息矩阵的计算:信息矩阵 I(\beta) 是对数似然函数的二阶导数的负值,通常可以通过数值优化过程计算得到。对于 \beta 的每个分量,信息矩阵的对角元素提供了系数的方差。
标准误差:系数 \beta_j 的标准误差是信息矩阵的对角元素的平方根:
其中 I(\beta)^{-1} 是信息矩阵的逆矩阵, \left[ I(\beta)^{-1} \right]_{jj} 是 \beta_j 对应的方差。
Wald 检验用于检验某个自变量系数是否显著。在负二项 GLM 中,Wald 检验的统计量可以计算为:
Wald 统计量遵循 标准正态分布,即:
根据 Wald 统计量 W_j ,可以计算对应的 p 值,用于检验自变量系数是否显著。
双尾检验:计算 p 值为
其中 Z \sim N(0, 1) 为标准正态分布。
如果 p -值小于显著性水平(如 0.05),则可以拒绝原假设,认为该自变量对响应变量有显著影响。
除了 Wald 检验,似然比检验(LRT)也是检验系数显著性的一种常见方法。LRT 检验通过比较 完整模型 和 简化模型 的对数似然值来进行。
LRT 统计量的计算公式为:
其中 \ell(\hat{\beta}, \hat{\alpha}) 是完整模型的对数似然, \ell(\hat{\beta}^{(0)}, \hat{\alpha}^{(0)}) 是简化模型的对数似然。
LRT 统计量服从 卡方分布(Chi-square distribution),自由度为模型之间参数数量的差异(通常是去除的系数个数)。
计算负二项 GLM 中自变量系数显著性的步骤如下:
通过这些方法,可以评估自变量系数 \beta 是否对响应变量有显著影响。
在 负二项广义线性模型(Negative Binomial GLM) 中,Wald 检验 用于检验自变量系数 \beta_j 的显著性。在计算 Wald 统计量时,虽然我们关注的是自变量系数 \beta_j 的估计值和标准误差,但实际上 dispersion 参数 \alpha 也间接影响了 Wald 检验的结果,主要体现在 标准误差(Standard Error, SE) 的计算上。
Wald 统计量是基于自变量系数 \beta_j 的估计值和其标准误差计算的:
标准误差的计算依赖于信息矩阵(信息矩阵是对数似然函数的二阶导数),而信息矩阵本身涉及了 dispersion 参数 \alpha 。因此,尽管 Wald 统计量的计算看似只涉及 \hat{\beta}_j 和其标准误差,但 dispersion 参数 \alpha 会影响 标准误差 的计算。
负二项分布中,响应变量的方差和均值之间的关系由 dispersion 参数 \alpha 控制:
其中,\mu_i 是响应变量 y_i 的均值,\alpha 是 dispersion 参数。
在 负二项 GLM 中,标准误差 SE(\hat{\beta}_j) 的计算涉及了 方差-covariance 矩阵,它会受到 \alpha 的影响。具体来说:
在 计算标准误差时,dispersion 参数 \alpha 通过 协方差矩阵影响 \beta_j 的方差。即: