Introduction to logistic regression
最后发布时间 : 2024-07-28 23:00:18
浏览量 :
学习资料
当我们分析的outcome是0或1时,y的期望值是y=1的机率p=Pr(y1),如果直接将binary variable取期望值,使用一开始的回归方法,将存在以下问题:
- 预测的值是0~1,x值是正无限大到负无限大,\beta很难估计
- 在连续的变量,y的variance是常数,当y是binary variable,其期望值是p(1-p),其variance依赖mean,而当x值不同时,mean就不同,显然与y的variance是常数的假设不符
为了解决这个问题,需要使用某一个函数转换y的期望值,让其处于正无限大到负无限大
Logistic regression: model
使用logit
或者log odds
ln(\frac{p}{1-p})作为响应变量,这样让响应变量趋于正无限大(p->1 the logit -> \infty )与负无限大(p->0 the logit -> -\infty )之间
logit的variance仍然不是constant的,因此需要特定的方法去fit the line
Logistic regression: assumptions
- 每一个y是独立的
- 不是y的期望值与convariates x有线性关系,而是ln(\frac{p}{1-p})与x有线性关系
- y没有constant variance,不能用最小平方法估计\beta,用least-squares求解的beta不是best linear unbiased estimators。