test

最后发布时间:2025-02-02 21:00:51 浏览量:

下面介绍如何用最大似然估计（MLE）来估计负二项分布的参数，不过这里我们采用以“均值（mean）”和“离散度（dispersion）”来参数化的方式，这种参数化常用于处理过度离散（over-dispersion）问题。我们将详细介绍模型的构造、对数似然函数的推导以及如何求解参数估计。

1. 参数化负二项分布：均值和离散度

通常，负二项分布有两种常见的参数化方式：一种是用成功次数 ( r ) 和成功概率 ( p ) 参数化，另一种是用均值 ( \mu ) 和离散度参数 ( k )（或称为大小参数、shape 参数）参数化。这里我们采用后者，其概率质量函数（PMF）写为

[
P(Y = y) = \frac{\Gamma(y+k)}{\Gamma(k), y!} \left(\frac{\mu+k}\right)^k \left(\frac{\mu}{\mu+k}\right)^y,\quad y=0,1,2,\dots
]

其中

( \mu = E(Y) ) 是均值；
( k>0 ) 是离散度参数，反映了数据的过度离散程度；
利用该参数化，其方差为
[
\operatorname(Y) = \mu + \frac{\mu^2}.
]
可以看到，当 ( k \to \infty ) 时，(\operatorname(Y) \to \mu)（即退化为泊松分布）；而较小的 ( k ) 表示方差远大于均值，数据存在过度离散现象。

2. 构造似然函数

设我们有独立同分布样本 ( y_1,y_2,\dots,y_n )，则整体似然函数为各个观测值概率的乘积：

[
L(\mu,k) = \prod_^n \frac{\Gamma(y_i+k)}{\Gamma(k), y_i!} \left(\frac{\mu+k}\right)^k \left(\frac{\mu}{\mu+k}\right)^.
]

为了便于求导，我们通常取对数，得到对数似然函数：

[
\begin
\ell(\mu,k) &= \log L(\mu,k) \
&=\sum_^n \Biggl{ \log\Gamma(y_i+k) - \log\Gamma(k) - \log(y_i!) \
&\quad\quad\quad +, k\log\left(\frac{\mu+k}\right) + y_i\log\left(\frac{\mu}{\mu+k}\right) \Biggr}.
\end
]

注意：其中的 (\log(y_i!)) 项与参数无关（对后续求导时不会产生影响），但通常还是保留写出。

3. 关于均值 ( \mu ) 的估计

求导得到关于 (\mu) 的得分函数

对每个观测 ( y_i ) 来看，关于 (\mu) 的部分为

[
k\log\left(\frac{\mu+k}\right) + y_i\log\left(\frac{\mu}{\mu+k}\right).
]

对 (\mu) 求导时注意：

( k\log\left(\frac{\mu+k}\right) ) 中仅含有 (\mu) 的部分是 (-k\log(\mu+k))，其导数为 (-\frac{\mu+k})；
( y_i\log\left(\frac{\mu}{\mu+k}\right) = y_i\bigl[\log \mu - \log(\mu+k)\bigr] ) 的导数为 ( \frac{\mu} - \frac{\mu+k} )。

因此，单个观测的关于 (\mu) 的得分函数为

[
\frac{\partial \ell_i}{\partial \mu} = -\frac{\mu+k} + \frac{\mu} - \frac{\mu+k}.
]

合并第二和第三项，我们可以写为

[
\frac{\partial \ell_i}{\partial \mu} = \frac{\mu} - \frac{y_i+k}{\mu+k}.
]

将所有观测求和，得到总体得分函数

[
\frac{\partial \ell}{\partial \mu} = \sum_^n \left[\frac{\mu} - \frac{y_i+k}{\mu+k}\right].
]

求解最优 (\mu)

将上式设为零：

[
\sum_^n \left[\frac{\mu} - \frac{y_i+k}{\mu+k}\right] = 0.
]

实际上可以发现，对每个 ( y_i ) 有

[
\frac{\mu} - \frac{y_i+k}{\mu+k} = \frac{k(y_i-\mu)}{\mu(\mu+k)}.
]

于是，总得分函数写为

[
\frac{\partial \ell}{\partial \mu} = \frac{\mu(\mu+k)} \sum_^n (y_i-\mu) = 0.
]

由于 ( \frac{\mu(\mu+k)} ) 不为零，要求

[
\sum_^n (y_i-\mu) = 0 \quad \Longrightarrow \quad n\mu = \sum_^n y_i.
]

这表明，关于 (\mu) 的 MLE 解为样本均值

[
\boxed{\hat{\mu} = \bar = \frac{1}\sum_^n y_i.}
]

4. 关于离散度 ( k ) 的估计

求导得到关于 ( k ) 的得分函数

我们对对数似然函数中含 ( k ) 的各项求导。对单个观测 ( y_i )，涉及 ( k ) 的部分为

[
\log\Gamma(y_i+k) - \log\Gamma(k) + k\log\left(\frac{\mu+k}\right) + y_i\log\left(\frac{\mu}{\mu+k}\right).
]

其中，最后一项不含 ( k )（因为 (\mu) 被视为常数，对 ( k ) 来说，只有 (\log(\mu+k)) 出现，但前面已出现过，我们统一求导）。具体来说：

对 (\log\Gamma(y_i+k)) 求导得到 (\psi(y_i+k))，其中 (\psi(\cdot)) 为 digamma 函数；
对 (-\log\Gamma(k)) 求导得到 (-\psi(k))；
对 ( k\log\left(\frac{\mu+k}\right) ) 求导：
先写为 ( k[\log k - \log(\mu+k)] )，其导数为
[
\frac{\partial}{\partial k}\Bigl{ k\log k \Bigr} = \log k + 1,\quad
\frac{\partial}{\partial k}\Bigl{ k\log(\mu+k) \Bigr} = \log(\mu+k) + \frac{\mu+k}.
]
故这一部分的导数为
[
\log k + 1 - \log(\mu+k) - \frac{\mu+k}.
]
对 ( y_i\log\left(\frac{\mu}{\mu+k}\right) ) 求导，由于 (\log\mu)不含 ( k )，只需对 (-y_i\log(\mu+k)) 求导，得到
[
\frac{\mu+k}.
]

综合起来，对单个 ( y_i ) 有

[
\frac{\partial \ell_i}{\partial k} = \psi(y_i+k) - \psi(k) + \log k - \log(\mu+k) + 1 - \frac{\mu+k} - \frac{\mu+k}.
]

整理一下，注意 ( \frac{\mu+k}+\frac{\mu+k}=\frac{y_i+k}{\mu+k} )，于是

[
\frac{\partial \ell_i}{\partial k} = \psi(y_i+k) - \psi(k) + \log\frac{\mu+k} + 1 - \frac{y_i+k}{\mu+k}.
]

总体得分函数为对所有 ( i ) 求和：

[
\frac{\partial \ell}{\partial k} = \sum_^n \left[ \psi(y_i+k) - \psi(k) + \log\frac{\mu+k} + 1 - \frac{y_i+k}{\mu+k} \right].
]

求解最优 ( k )

令

\frac{\partial \ell}{\partial k} = 0,

即有方程

$\sum_{i=1}^n \left[ \psi(y_i+k) - \psi(k) + \log\frac{k}{\mu+k} + 1 - \frac{y_i+k}{\mu+k} \right] = 0.$

注意：在这里我们已经得到了 (\hat{\mu}=\bar)，可以将其代入上式。由于该方程涉及 digamma 函数和对数项，一般没有解析解，因此需要采用数值方法（如牛顿-拉夫森法、固定点迭代法等）来求解 ( k ) 的估计值。

5. 总结与解释

模型构造
我们采用了负二项分布的均值-离散度参数化，其中

均值 $\mu$ 直接表示数据的平均水平；
离散度参数 ( k ) 决定了数据的方差：(\operatorname(Y)=\mu+\mu^2/k)。当 ( k ) 越大时，方差越接近均值；当 ( k ) 较小时，说明数据存在明显的过度离散。

MLE 求解步骤

写出样本的似然函数，再取对数得到对数似然函数。
对 (\mu) 求偏导并设置为 0，经过简化可得 MLE 的闭式解为样本均值：(\hat{\mu}=\bar)。
对 ( k ) 求偏导并设置为 0，得到包含 digamma 函数和对数项的方程。由于无解析解，因此需采用数值优化方法来求解 ( \hat )。

意义解释

均值 (\mu)：MLE 得到的 (\hat{\mu}) 正好是样本均值，这与负二项分布的自然属性相符合。
离散度 ( k )：MLE 得到的 ( \hat ) 反映了数据相对于泊松分布（方差等于均值）的额外离散程度。当 ( \hat ) 较小，表明数据的方差远大于均值，适合用负二项分布建模；当 ( \hat ) 很大时，负二项分布趋于泊松分布。