Introduction to logistic regression

最后发布时间 : 2025-01-27 22:26:44 浏览量 :

学习资料

当我们分析的outcome是0或1时，y的期望值是y=1的机率 $p=Pr(y1)$ ，如果直接将binary variable取期望值，使用一开始的回归方法，将存在以下问题：

预测的值是0~1，x值是正无限大到负无限大， $\beta$ 很难估计
在连续的变量，y的variance是常数，当y是binary variable，其期望值是 $p(1-p)$ ，其variance依赖mean，而当x值不同时，mean就不同，显然与y的variance是常数的假设不符

为了解决这个问题，需要使用某一个函数转换y的期望值，让其处于正无限大到负无限大

Logistic regression: model

使用logit或者log odds $ln(\frac{p}{1-p})$ 作为响应变量，这样让响应变量趋于正无限大(p->1 the logit -> $\infty$ )与负无限大(p->0 the logit -> $-\infty$ )之间

logit的variance仍然不是constant的，因此需要特定的方法去fit the line

每一个y是独立的
不是y的期望值与convariates x有线性关系，而是 $ln(\frac{p}{1-p})$ 与x有线性关系
y没有constant variance，不能用最小平方法估计 $\beta$ ,用least-squares求解的 $beta$ 不是best linear unbiased estimators。

当自变量是年龄，因变量是是否患病时，Odds Ratio的解释可以具体化为：在控制其他变量不变的情况下，年龄每增加一岁，个体患病与不患病的概率之比（即胜率）的变化倍数。