展开

Introduction to logistic regression

最后发布时间 : 2024-07-28 23:00:18 浏览量 :

学习资料

当我们分析的outcome是0或1时,y的期望值是y=1的机率p=Pr(y1),如果直接将binary variable取期望值,使用一开始的回归方法,将存在以下问题:

  • 预测的值是0~1,x值是正无限大到负无限大,\beta很难估计
  • 在连续的变量,y的variance是常数,当y是binary variable,其期望值是p(1-p),其variance依赖mean,而当x值不同时,mean就不同,显然与y的variance是常数的假设不符

为了解决这个问题,需要使用某一个函数转换y的期望值,让其处于正无限大到负无限大

Logistic regression: model

使用logit或者log oddsln(\frac{p}{1-p})作为响应变量,这样让响应变量趋于正无限大(p->1 the logit -> \infty )与负无限大(p->0 the logit -> -\infty )之间

logit的variance仍然不是constant的,因此需要特定的方法去fit the line

生信小木屋

生信小木屋

Logistic regression: assumptions

  • 每一个y是独立的
  • 不是y的期望值与convariates x有线性关系,而是ln(\frac{p}{1-p})与x有线性关系
  • y没有constant variance,不能用最小平方法估计\beta,用least-squares求解的beta不是best linear unbiased estimators。

Logistic regression: interpretation of coefficients

生信小木屋