Poisson Regression
参考
Introduction to Poisson Regression
首先考虑以下问题:
- 给定年份的摩托车死亡人数是否与州的头盔法有关?
- 公立大学和私立大学一年中进行校园面试的雇主数量是否不同?
- 每天因哮喘相关而去急诊室就诊的次数是否因空气污染指数而异?
- 在过去十年中,随机选择的明尼苏达州湖泊中畸形鱼类的数量是否受到水中微量矿物质变化的影响?
每个示例都涉及使用一个或多个解释变量预测响应,尽管这些示例的响应变量是每个时间单位或空间的计数。泊松随机变量通常用于对计数进行建模。由于 Poisson 随机变量是一个计数,因此其最小值为零,理论上最大值是无界的。我们想将我们的主要参数λ(每单位时间或空间的平均发生次数)建模为一个或多个协变量的函数。或者,在上面的第一个问题中,λi表示州i一年内摩托车死亡的平均人数,我们希望表明λi的州际变化可以用州头盔法来解释。
对于线性最小二乘回归模型,感兴趣的参数是受试者i的平均反应μi,在有一个解释变量的情况下,μi被建模为一条线。通过类比,试图将泊松参数λi建模为解释变量的线性函数似乎是合理的,但这种方法存在一些问题。实际上,像λi=β0+β1 x i这样的模型对泊松数据并不适用。对于某些x i,直线肯定会产生负值,但λi只能取0到∞之间的值。此外,违反了线性回归推断中的等方差假设,因为随着泊松变量的平均速率增加,方差也增加(如果Y是观察计数,则E(Y)=V a r(Y)=λ)。
避免这些问题的一种方法是将log(λi)而不是λi建模为协变量的函数。对数(λi)取值范围为−∞到∞。我们也可以用这种方法考虑方差的增加和均值的增加(请注意,在整个多元线性回归中,我们使用log表示自然对数)。因此,我们将考虑泊松回归模型:
其中,给定x i的观测值Yi~Poisson,λ=λi。例如,根据每个状态i的值x i,每个状态i可能具有不同的λ,其中x i可以表示特定头盔定律的存在或不存在。注意,Poisson回归模型不包含像线性回归中看到的ϵ那样的单独误差项,因为λ决定Poisson随机变量的均值和方差。
Poisson Regression Assumptions
与线性最小二乘回归(LLSR)非常相似,使用泊松回归进行推断需要模型假设。
- 泊松响应:响应变量是单位时间或空间的计数,由泊松分布描述。
- 独立性:观察必须相互独立。
- 均值=方差:根据定义,泊松随机变量的均值必须等于其方差。
A Graphical Look at Poisson Regression
图4.1:回归模型:线性回归(左)和泊松回归(右)。
图4.1说明了LLSR模型的比较,用于使用λ的对数函数推断泊松回归。
- 显示LLSR推断模型的图形出现在图4.1的左面板中。结果表明,对于X的每一个水平,响应基本正常。图4.1右侧的面板描述了泊松回归模型的样子。对于X的每个级别,响应遵循泊松分布(假设1)。对于泊松回归,λ的小值与一个分布相关,该分布明显偏离许多小值,只有几个较大值。随着λ的增加,响应的分布开始越来越像正态分布。
- 在LLSR模型中,Y在X的每个水平σ2上的变化是相同的。对于泊松回归,随着均值的增加,X的每个水平的响应变得更加可变,其中方差=均值(假设3)。
- 在LLSR的情况下,X的每个水平的平均响应,μY | X,落在一条线上。在泊松模型的情况下,在X的每个水平上Y的平均值λY | X落在一条曲线上,而不是一条直线上,尽管平均值的对数应遵循一条直线(假设4)。
Case Studies Overview
我们将在三个案例研究的背景下研究泊松回归模型。每个案例研究都基于真实数据和真实问题。菲律宾的家庭规模建模引入了带有泊松响应的回归思想及其假设。校园犯罪案例研究引入了Poisson回归模型中的两个重要思想:补偿,用于说明抽样努力,以及当实际变化超过模型预期时的过度分散。最后,周末饮酒的例子使用了一个修正的泊松模型,以说明更多的零比预期的泊松随机变量。这三个案例研究还为一些与建模相关的熟悉概念提供了背景,如探索性数据分析(EDA)、估计和残差图。
Case Study: Household Size in the Philippines
有多少人和你住在一起?同住一所房子的人数因国家而异,而且往往因地区而异。国际机构在确定人口需求时使用家庭规模,家庭规模决定家庭需求的大小。
菲律宾统计局(PSA)在全国率先开展家庭收入和支出调查(FIES)。这项调查每三年进行一次,目的是提供有关家庭收入和支出的数据,包括按支出项目分列的消费水平。我们的数据来自2015年FIES,是40000个观测值中1500个的子集(菲律宾统计局2015)。我们的数据集中在五个地区:吕宋岛中部、马尼拉、伊洛科斯、达沃和维萨亚斯(见图4.2)。
菲律宾的户主在什么年龄最有可能找到最多的家庭成员?对于较贫穷的家庭,这种关联是否类似(以是否存在主要由轻质/回收材料制成的屋顶衡量)?
我们首先明确定义我们的反应,Y=除户主以外的家庭成员数量。然后,我们定义解释变量:户主年龄、屋顶类型(主要为轻质/回收材料或主要为坚固材料)和位置(吕宋岛中部、达沃地区、伊洛科斯地区、马尼拉大都会或维萨亚斯)。请注意,主要轻质/回收材料是轻质材料、混合但主要轻质材料、混合但主要回收材料和回收基质的组合。
我们的回答是一个计数,因此我们考虑泊松回归,其中感兴趣的参数是λ,即每户除户主外的平均人数。我们将主要研究家庭规模与户主年龄之间的关系,控制地点和收入。
Data Organization
我们的数据集fHH1.csv的前五行如表4.1所示。数据文件的每一行都指调查时的一个家庭:
- location=房屋所在地(吕宋岛中部、达沃地区、伊洛科斯地区、马尼拉大都会或米沙鄢群岛)
- age=户主的年龄
- total=户主以外的家庭人数
numLT5=5岁以下家庭的人数 - numLT5=5岁以下家庭的人数
- roof=家庭中的屋顶类型(主要是轻质/回收材料,或主要是坚固材料,其中更坚固的材料有时可以作为更大财富的替代品)
Exploratory Data Analyses
在本案例研究的其余部分,我们将把一个家庭的人口数量称为除户主之外的该特定家庭的总人口。一个家庭的平均人数为3.68人(Var=5.53),房子里有0到16人。超过11.1%的家庭主要由轻质和回收材料组成。屋顶主要由坚固材料制成的房屋的平均居住人数为3.69人(Var=5.55),而屋顶主要由轻质/回收材料制成的房子的平均居住人口为3.64人(Var=4.41)。在各个地区中,米沙鄢群岛的家庭规模最大,平均为3.90人,达沃地区的家庭规模最小,平均为3.39人。
每栋房子的数量都有相当大的变化;回答范围从0到16,许多受访者表示家里有1到5个人。像许多泊松分布一样,这个图是右偏的。这显然并不意味着一个家庭中的人数是一个正态分布的反应。
进一步表明,当按关键解释变量(户主年龄)分组时,可以用泊松分布对反应进行合理建模。最后两个图共同表明,假设1(泊松响应)在本案例研究中是令人满意的。
对于泊松随机变量,Y的方差(即Y的标准偏差的平方)等于其均值,其中Y表示单个家庭的规模。随着平均值的增加,方差也会增加。因此,如果响应是计数,并且每组X的均值和方差近似相等,泊松回归模型可能是一个不错的选择。在表4.2中,我们按5年的增量显示年龄组,以检查房子里数字的经验均值和方差是否对每个年龄组都大致相等。这为我们提供了一种检查泊松假设3(均值=方差)的方法。
如果这个假设有问题,我们通常会看到方差远大于均值。正如预期的那样,随着年龄的增长,我们看到了更多的变化。然而,对于较低年龄段,方差似乎小于平均值,而对于较高年龄段,则大于平均值。因此,有一些证据表明违反了均值=方差假设(假设3),尽管任何违反都是适度的。
泊松回归模型还表明,log(λi)而不是平均家庭规模λi是年龄的线性函数;即l o g(λi)=β0+β1agei。因此,为了检验泊松回归的线性假设(假设4),我们想按年龄绘制对数(λi)。遗憾的是,λi是未知的。我们对λi的最佳猜测是每个年龄段家庭中观察到的平均数(X水平)。因为这些均值是针对观测数据计算的,所以它们被称为经验均值。通过记录经验平均值并按年龄绘制,提供了一种评估线性假设的方法。图4.5中添加的平滑曲线表明,年龄与平均家庭规模的对数之间存在曲线关系,这意味着应该考虑添加一个二次项。这一发现与研究人员的假设一致,即存在一个家庭规模最大的年龄。值得注意的是,我们并没有对经验平均值的对数进行建模,而是对真实速率的对数进行了建模。然而,通过观察经验方法,确实可以了解log(λ)和x i之间关系的形式。
我们可以通过为每个区域拟合单独的曲线来扩展图4.5(见图4.6)。这使我们能够看到平均家庭规模和年龄之间的关系在整个地区是否一致。在这种情况下,关系非常相似;如果不是这样,我们可以考虑在最终的泊松回归模型中添加按区域划分的年龄相互作用。
最后,可以使用研究设计和数据收集过程的知识来评估独立性假设(假设2)。在这种情况下,我们没有足够的信息来评估我们所获得的信息的独立性假设。如果不是以随机的方式单独选择每个家庭,而是从生活安排有不同习俗的不同地区选择一组家庭,那么独立性假设就会被违反。如果是这样的话,我们可以使用一个多层次模型,就像后面章节中讨论的那样,使用一个村庄术语。
Estimation and Inference
9 Overdispersion
9.1 Dispersion Parameter Adjustment
过度分散表明响应的方差比模型所暗示的更大。在泊松模型下,我们期望不同组中响应的均值和方差大致相同。在不调整过度分散的情况下,我们使用不正确的、人为较小的标准误差,导致模型系数的人为较小p值。我们也可能最终得到人工复杂的模型。
我们可以用几种不同的方法来考虑过度分散。最简单的方法是使用估计的色散因子来膨胀标准误差。另一种方法是使用负二项回归模型。我们首先使用色散参数的估计。我们可以通过将模型偏差除以其相应的自由度来估计色散参数,;即,\hat\phi=\frac{\sum(\textrm{Pearson residuals})^2}{n-p},其中p是模型参数的数量。根据我们对χ2分布的了解,如果没有过度分散,则该估计应接近1。在存在过分散的情况下,它将大于1。我们通过将方差乘以ϕ来膨胀标准误差,以便标准误差大于似然法的含义;SE_Q(\hat\beta)=\sqrt{\hat\phi}*SE(\hat\beta)式中,Q表示“准泊松”,因为方差乘以ϕ是一个特殊的解。我们的模型建立和比较过程被称为类似于似然但没有确切的潜在分布的拟似然。如果我们选择在模型中使用色散参数,我们将该方法称为拟似然。以下输出说明了交互模型的准泊松方法:
modeliq <- glm(nv ~ type + region + region:type,
family = quasipoisson,
offset = log(enroll1000), data = c.data)