线性回归分析
学习资料
Assumption
- 每一个X_1之下的Y_i都是Normal Distribution
- 研究年龄(X)与体重(Y)的关系:每一个年龄下的体重都是Normal Distribution
- 研究BMI(X)与血压(Y)的关系:每一个BMI下的血压都是Normal Distribution
- 饲料中蛋白质含量(X)与小猪体重(Y)的关系:每一个饲料(蛋白质含量不同)喂养的小猪体重都是Normal Distribution
X independent variable
Y dependent variable
- 每一个X_1之下的Y_i variance (\sigma^2)相同,mean(\mu)不同,且是独立的,\epsilon_i \sim N(0,v^2)=>Y_i \sim N(E(\beta_0+\beta_1x_i+\epsilon_i),\sigma^2)=Y_i \sim N(\beta_0+\beta_1x_i,\sigma^2)
- 每一个\mu_i与Y_i是直线关系:这里的线性关系,是指\beta^1是一次幂的,而不是\beta^2,与\mu_i或者x_i无关,因为可以说x_i转换后的值与y具有线性关系
上图,每一个饲料下的小猪体重是相同的 (点击查看绘图代码)
- 所有的variance都在y上,x的测量是没有误差的
- 为方便使用maximum likelihood进程参数数据,小样本数据假设y服从常态分布,y很大时,由于中央极限定理,可忽略这一假设
对\beta_0与\beta_1的解释
- \beta_0 = the mean y when x = 0
- \beta_1 x每变化一单位,y的平均值的变化
E(y_i)=104.1+0.71x_i
\beta_0 =104.1: 对于BMI=0的人,收缩压是104.1 mmHg
\beta_1=0.71:BMI没增加一单位,收缩压增加0.71 mmHg(正的就是增加)
centering variables
由于不存在BMI=0的人,为了使\beta_0更有意义,我们需要x_i减去一个值
\beta^*_0表示对于BMI=30的人,血压的平均值
Parameter estimation: the least-squares methods
通过微积分的额方法可解出\beta_0与\beta_1
\beta_0与\beta_1都是y_i与x_i的线性组合,也就是说\beta_0与\beta_1都是随机数
\hat{\beta_1}= \sum_{n}^{i=1}y_i\omega_i,其中\omega_i=\omega_i(x_1,\cdots , x_n)
\hat{\beta_0}= \sum_{n}^{i=1}y_i\gamma_i,其中\gamma_i=\gamma_i(x_1,\cdots , x_n)
Properties of least-squares estimators
对\sigma^2的估计
估计\beta_1的方差
当要对\beta_1做假设检验,我们需要知道\beta_1的variance
Relationship between \beta_1 and the diference of means
这里只需要假设y_i是连续的值,并且服从常态分布,对x_i没有限制
Parameter and variance estimation when comparing two group
当进行两组比较时,或者说当X等于0或1时,回归分析中的\hat{\beta_1}的值与t检验的分子相同,\hat{\beta_1}方差的估计值与t检验的分母相同
Estimation by maximum likelihood
在回归分析中,y_1 \cdots y_n时随机变量,x_1 \cdots x_n是已知变量,在使用maximum likelihood时需要写出观察到的随机变量y_1 \cdots y_n的分布
这里假设y_1 \cdots y_n都是服从常态分布,并且y_1 \cdots y_n都是独立的,所以likelihood就是所有观察到y的几率相乘
这里要找出哪一组\beta_0、\beta_1和\sigma^2使得likelihood的值最大
注意:在一般的线性回归里,就是当随机变量y服从常态分布时,使用least-squares estimators与maximum likelihood估计的\beta是完全一样的,这只针对y是连续的值有效,当y是1或0时,这两个估计的结果不同
The residual plot
test \beta
方式一:F test (SST=SSR+SSE)
方式二: t test (t= \frac{var-E(var)}{\sigma} )