在 负二项广义线性模型(Negative Binomial GLM) 中,估计 dispersion(离散参数) 是关键的一步,它决定了模型如何处理数据的过度离散性。这里,我将详细介绍如何通过最大似然估计(MLE)来求解 dispersion 参数。
假设我们有一组数据,其中 y_i 是第 i 个观测值, X_i 是该观测值的自变量, \mu_i 是预测的均值。负二项分布的方差和均值之间的关系如下:
其中 \mu_i 是响应变量的均值, \alpha 是 dispersion 参数。
负二项 GLM 中的对数似然函数通常由两部分组成:
在负二项 GLM 中,假设响应变量 Y_i 的分布是负二项分布,参数 \mu_i (均值)和 \alpha (dispersion)是待估计的参数。
负二项分布的概率质量函数(PMF)为:
其中:
因此,对数似然函数是所有样本的对数概率的总和:
最大似然估计的目标是通过最大化对数似然函数来估计模型参数(即自变量系数 \beta 和 dispersion 参数 \alpha )。
首先,你可以使用 广义线性模型(GLM) 来估计自变量系数 \beta 。通常,假设 \mu_i = g^{-1}(X_i \beta) ,其中 g^{-1} 是链接函数,通常为对数链接: \mu_i = \exp(X_i \beta) 。
通过最大化 对数似然函数(其中仅包含系数参数),可以得到 \beta 的估计值。
对于负二项分布的对数似然函数:
这里,对数似然函数可以分离成两个部分:
在 第一阶段,我们通过最大化 自变量系数部分 来估计 \beta ,而不需要考虑 \alpha (dispersion)。这意味着,尽管 dispersion 参数会影响模型的方差结构,它对估计 \beta 并不直接影响。
在获得系数 \beta 的估计后,我们可以继续估计 dispersion 参数 \alpha 。估计过程通过最大化对数似然函数来进行:
简化对数似然函数:在最大似然估计中,通常使用 逐步优化方法 来得到参数的最大似然估计。对数似然函数涉及到 \mu_i 和 \alpha 两个未知参数,因此,首先要解决 \mu_i (即系数 \beta )的问题,然后估计 \alpha 。
负二项的拟合方差公式:估计 dispersion \alpha 时,通常会使用 拟合方差 和 残差平方和 的关系来计算。通过样本的 Pearson 残差 或 Deviance 残差,我们可以估计 \alpha :
这个公式基于负二项分布的方差公式,其中 \mu_i 是基于 X_i 和 \beta 的预测均值。