test

最后发布时间:2025-02-02 21:00:51 浏览量:

下面介绍如何用最大似然估计(MLE)来估计负二项分布的参数,不过这里我们采用以“均值(mean)”和“离散度(dispersion)”来参数化的方式,这种参数化常用于处理过度离散(over-dispersion)问题。我们将详细介绍模型的构造、对数似然函数的推导以及如何求解参数估计。

1. 参数化负二项分布:均值和离散度

通常,负二项分布有两种常见的参数化方式:一种是用成功次数 ( r ) 和成功概率 ( p ) 参数化,另一种是用均值 ( \mu ) 和离散度参数 ( k )(或称为大小参数、shape 参数)参数化。这里我们采用后者,其概率质量函数(PMF)写为

[
P(Y = y) = \frac{\Gamma(y+k)}{\Gamma(k), y!} \left(\frac
{\mu+k}\right)^k \left(\frac{\mu}{\mu+k}\right)^y,\quad y=0,1,2,\dots
]

其中

  • ( \mu = E(Y) ) 是均值;
  • ( k>0 ) 是离散度参数,反映了数据的过度离散程度;
  • 利用该参数化,其方差为
    [
    \operatorname
    (Y) = \mu + \frac{\mu^2}.
    ]
    可以看到,当 ( k \to \infty ) 时,(\operatorname
    (Y) \to \mu)(即退化为泊松分布);而较小的 ( k ) 表示方差远大于均值,数据存在过度离散现象。

2. 构造似然函数

设我们有独立同分布样本 ( y_1,y_2,\dots,y_n ),则整体似然函数为各个观测值概率的乘积:

[
L(\mu,k) = \prod_
^n \frac{\Gamma(y_i+k)}{\Gamma(k), y_i!} \left(\frac{\mu+k}\right)^k \left(\frac{\mu}{\mu+k}\right)^.
]

为了便于求导,我们通常取对数,得到对数似然函数:

[
\begin

\ell(\mu,k) &= \log L(\mu,k) \
&=\sum_
^n \Biggl{ \log\Gamma(y_i+k) - \log\Gamma(k) - \log(y_i!) \
&\quad\quad\quad +, k\log\left(\frac
{\mu+k}\right) + y_i\log\left(\frac{\mu}{\mu+k}\right) \Biggr}.
\end

]

注意:其中的 (\log(y_i!)) 项与参数无关(对后续求导时不会产生影响),但通常还是保留写出。

3. 关于均值 ( \mu ) 的估计

求导得到关于 (\mu) 的得分函数

对每个观测 ( y_i ) 来看,关于 (\mu) 的部分为

[
k\log\left(\frac
{\mu+k}\right) + y_i\log\left(\frac{\mu}{\mu+k}\right).
]

对 (\mu) 求导时注意:

  • ( k\log\left(\frac{\mu+k}\right) ) 中仅含有 (\mu) 的部分是 (-k\log(\mu+k)),其导数为 (-\frac{\mu+k});
  • ( y_i\log\left(\frac{\mu}{\mu+k}\right) = y_i\bigl[\log \mu - \log(\mu+k)\bigr] ) 的导数为 ( \frac{\mu} - \frac{\mu+k} )。

因此,单个观测的关于 (\mu) 的得分函数为

[
\frac{\partial \ell_i}{\partial \mu} = -\frac
{\mu+k} + \frac{\mu} - \frac{\mu+k}.
]

合并第二和第三项,我们可以写为

[
\frac{\partial \ell_i}{\partial \mu} = \frac
{\mu} - \frac{y_i+k}{\mu+k}.
]

将所有观测求和,得到总体得分函数

[
\frac{\partial \ell}{\partial \mu} = \sum_
^n \left[\frac{\mu} - \frac{y_i+k}{\mu+k}\right].
]

求解最优 (\mu)

将上式设为零:

[
\sum_
^n \left[\frac{\mu} - \frac{y_i+k}{\mu+k}\right] = 0.
]

实际上可以发现,对每个 ( y_i ) 有

[
\frac
{\mu} - \frac{y_i+k}{\mu+k} = \frac{k(y_i-\mu)}{\mu(\mu+k)}.
]

于是,总得分函数写为

[
\frac{\partial \ell}{\partial \mu} = \frac
{\mu(\mu+k)} \sum_^n (y_i-\mu) = 0.
]

由于 ( \frac{\mu(\mu+k)} ) 不为零,要求

[
\sum_
^n (y_i-\mu) = 0 \quad \Longrightarrow \quad n\mu = \sum_^n y_i.
]

这表明,关于 (\mu) 的 MLE 解为样本均值

[
\boxed{\hat{\mu} = \bar
= \frac{1}\sum_^n y_i.}
]

4. 关于离散度 ( k ) 的估计

求导得到关于 ( k ) 的得分函数

我们对对数似然函数中含 ( k ) 的各项求导。对单个观测 ( y_i ),涉及 ( k ) 的部分为

[
\log\Gamma(y_i+k) - \log\Gamma(k) + k\log\left(\frac
{\mu+k}\right) + y_i\log\left(\frac{\mu}{\mu+k}\right).
]

其中,最后一项不含 ( k )(因为 (\mu) 被视为常数,对 ( k ) 来说,只有 (\log(\mu+k)) 出现,但前面已出现过,我们统一求导)。具体来说:

  • 对 (\log\Gamma(y_i+k)) 求导得到 (\psi(y_i+k)),其中 (\psi(\cdot)) 为 digamma 函数;
  • 对 (-\log\Gamma(k)) 求导得到 (-\psi(k));
  • 对 ( k\log\left(\frac{\mu+k}\right) ) 求导:
    先写为 ( k[\log k - \log(\mu+k)] ),其导数为
    [
    \frac{\partial}{\partial k}\Bigl{ k\log k \Bigr} = \log k + 1,\quad
    \frac{\partial}{\partial k}\Bigl{ k\log(\mu+k) \Bigr} = \log(\mu+k) + \frac
    {\mu+k}.
    ]
    故这一部分的导数为
    [
    \log k + 1 - \log(\mu+k) - \frac
    {\mu+k}.
    ]
  • 对 ( y_i\log\left(\frac{\mu}{\mu+k}\right) ) 求导,由于 (\log\mu)不含 ( k ),只需对 (-y_i\log(\mu+k)) 求导,得到
    [
  • \frac{\mu+k}.
    ]

综合起来,对单个 ( y_i ) 有

[
\frac{\partial \ell_i}{\partial k} = \psi(y_i+k) - \psi(k) + \log k - \log(\mu+k) + 1 - \frac
{\mu+k} - \frac{\mu+k}.
]

整理一下,注意 ( \frac{\mu+k}+\frac{\mu+k}=\frac{y_i+k}{\mu+k} ),于是

[
\frac{\partial \ell_i}{\partial k} = \psi(y_i+k) - \psi(k) + \log\frac
{\mu+k} + 1 - \frac{y_i+k}{\mu+k}.
]

总体得分函数为对所有 ( i ) 求和:

[
\frac{\partial \ell}{\partial k} = \sum_
^n \left[ \psi(y_i+k) - \psi(k) + \log\frac{\mu+k} + 1 - \frac{y_i+k}{\mu+k} \right].
]

求解最优 ( k )

\frac{\partial \ell}{\partial k} = 0,

即有方程

\sum_{i=1}^n \left[ \psi(y_i+k) - \psi(k) + \log\frac{k}{\mu+k} + 1 - \frac{y_i+k}{\mu+k} \right] = 0.

注意:在这里我们已经得到了 (\hat{\mu}=\bar),可以将其代入上式。由于该方程涉及 digamma 函数和对数项,一般没有解析解,因此需要采用数值方法(如牛顿-拉夫森法、固定点迭代法等)来求解 ( k ) 的估计值。

5. 总结与解释

  1. 模型构造
    我们采用了负二项分布的均值-离散度参数化,其中
  • 均值 \( \mu \) 直接表示数据的平均水平;
  • 离散度参数 ( k ) 决定了数据的方差:(\operatorname(Y)=\mu+\mu^2/k)。当 ( k ) 越大时,方差越接近均值;当 ( k ) 较小时,说明数据存在明显的过度离散。
  1. MLE 求解步骤
  • 写出样本的似然函数,再取对数得到对数似然函数。
  • 对 (\mu) 求偏导并设置为 0,经过简化可得 MLE 的闭式解为样本均值:(\hat{\mu}=\bar)。
  • 对 ( k ) 求偏导并设置为 0,得到包含 digamma 函数和对数项的方程。由于无解析解,因此需采用数值优化方法来求解 ( \hat )。
  1. 意义解释
  • 均值 (\mu):MLE 得到的 (\hat{\mu}) 正好是样本均值,这与负二项分布的自然属性相符合。
  • 离散度 ( k ):MLE 得到的 ( \hat ) 反映了数据相对于泊松分布(方差等于均值)的额外离散程度。当 ( \hat ) 较小,表明数据的方差远大于均值,适合用负二项分布建模;当 ( \hat ) 很大时,负二项分布趋于泊松分布。

6. 实际计算

在实际应用中,我们通常会:

  • 先计算样本均值 (\bar) 作为 (\mu) 的估计;
  • 将 (\mu=\bar) 代入关于 ( k ) 的方程,然后利用数值算法求解 ( k ) 的值;
  • 最后,可以根据估计的 (\hat{\mu}) 和 (\hat) 得到模型的方差估计 ( \hat{\mu}+\hat{\mu}^2/\hat );

许多统计软件(如 R 中的 glm.nb 函数或 Python 中的相关包)都内置了求解过程,直接返回 MLE 的参数估计值。

结论

使用均值和离散度参数化的负二项分布,MLE 的估计过程主要包括:

  1. 建立基于样本的对数似然函数;
  2. 对 (\mu) 求偏导得到 (\hat{\mu}=\bar);
  3. 对 ( k ) 求偏导得到包含 digamma 函数的方程,并用数值方法求解 ( \hat );
  4. 最终得到的参数不仅可以描述数据的平均水平,也能刻画数据的过度离散特性。

这种从均值与离散度角度的解释,更直观地反映了负二项分布为何适用于那些方差大于均值的数据。