展开

线性回归分析

最后发布时间 : 2024-07-07 17:00:57 浏览量 :

学习资料

生信小木屋

Assumption

  • 每一个X_1之下的Y_i都是Normal Distribution
    • 研究年龄(X)与体重(Y)的关系:每一个年龄下的体重都是Normal Distribution
    • 研究BMI(X)与血压(Y)的关系:每一个BMI下的血压都是Normal Distribution
    • 饲料中蛋白质含量(X)与小猪体重(Y)的关系:每一个饲料(蛋白质含量不同)喂养的小猪体重都是Normal Distribution

X independent variable
Y dependent variable

  • 每一个X_1之下的Y_i variance (\sigma^2)相同,mean(\mu)不同,且是独立的,\epsilon_i \sim N(0,v^2)=>Y_i \sim N(E(\beta_0+\beta_1x_i+\epsilon_i),\sigma^2)=Y_i \sim N(\beta_0+\beta_1x_i,\sigma^2)
  • 每一个\mu_iY_i是直线关系:这里的线性关系,是指\beta^1是一次幂的,而不是\beta^2,与\mu_i或者x_i无关,因为可以说x_i转换后的值与y具有线性关系
    生信小木屋

    上图,每一个饲料下的小猪体重是相同的 (点击查看绘图代码)

  • 所有的variance都在y上,x的测量是没有误差的
  • 为方便使用maximum likelihood进程参数数据,小样本数据假设y服从常态分布,y很大时,由于中央极限定理,可忽略这一假设

\beta_0与\beta_1的解释

  • \beta_0 = the mean y when x = 0
  • \beta_1 x每变化一单位,y的平均值的变化

E(y_i)=104.1+0.71x_i
\beta_0 =104.1: 对于BMI=0的人,收缩压是104.1 mmHg
\beta_1=0.71:BMI没增加一单位,收缩压增加0.71 mmHg(正的就是增加)

centering variables

由于不存在BMI=0的人,为了使\beta_0更有意义,我们需要x_i减去一个值

生信小木屋

\beta^*_0表示对于BMI=30的人,血压的平均值

Parameter estimation: the least-squares methods

生信小木屋

通过微积分的额方法可解出\beta_0\beta_1
生信小木屋

\beta_0\beta_1都是y_ix_i的线性组合,也就是说\beta_0\beta_1都是随机数

\hat{\beta_1}= \sum_{n}^{i=1}y_i\omega_i,其中\omega_i=\omega_i(x_1,\cdots , x_n)
\hat{\beta_0}= \sum_{n}^{i=1}y_i\gamma_i,其中\gamma_i=\gamma_i(x_1,\cdots , x_n)

Properties of least-squares estimators

生信小木屋

\sigma^2的估计

生信小木屋

估计\beta_1的方差

当要对\beta_1做假设检验,我们需要知道\beta_1的variance

生信小木屋

Relationship between \beta_1 and the diference of means

生信小木屋

这里只需要假设y_i是连续的值,并且服从常态分布,对x_i没有限制

Parameter and variance estimation when comparing two group

生信小木屋

生信小木屋

当进行两组比较时,或者说当X等于0或1时,回归分析中的\hat{\beta_1}的值与t检验的分子相同,\hat{\beta_1}方差的估计值与t检验的分母相同

Estimation by maximum likelihood

生信小木屋

在回归分析中,y_1 \cdots y_n时随机变量,x_1 \cdots x_n是已知变量,在使用maximum likelihood时需要写出观察到的随机变量y_1 \cdots y_n的分布

这里假设y_1 \cdots y_n都是服从常态分布,并且y_1 \cdots y_n都是独立的,所以likelihood就是所有观察到y的几率相乘

这里要找出哪一组\beta_0\beta_1\sigma^2使得likelihood的值最大

注意:在一般的线性回归里,就是当随机变量y服从常态分布时,使用least-squares estimators与maximum likelihood估计的\beta是完全一样的,这只针对y是连续的值有效,当y是1或0时,这两个估计的结果不同

The residual plot

生信小木屋

test \beta

方式一:F test (SST=SSR+SSE)
方式二: t test (t= \frac{var-E(var)}{\sigma} )

F test

t test