线性回归分析

最后发布时间 : 2024-07-07 17:00:57 浏览量 :

学习资料

http://www.statpower.net/Content/313/Lecture+Notes/TwoIndependentSamples.pdf

Assumption

每一个X_1之下的Y_i都是Normal Distribution
- 研究年龄( $X$ )与体重( $Y$ )的关系：每一个年龄下的体重都是Normal Distribution
- 研究BMI( $X$ )与血压( $Y$ )的关系：每一个BMI下的血压都是Normal Distribution
- 饲料中蛋白质含量( $X$ )与小猪体重( $Y$ )的关系：每一个饲料（蛋白质含量不同）喂养的小猪体重都是Normal Distribution

X independent variable
Y dependent variable

每一个 $X_1$ 之下的 $Y_i$ variance ( $\sigma^2$ )相同，mean( $\mu$ )不同，且是独立的， $\epsilon_i \sim N(0,v^2)$ => $Y_i \sim N(E(\beta_0+\beta_1x_i+\epsilon_i),\sigma^2)$ = $Y_i \sim N(\beta_0+\beta_1x_i,\sigma^2)$
每一个 $\mu_i$ 与 $Y_i$ 是直线关系:这里的线性关系，是指 $\beta^1$ 是一次幂的，而不是 $\beta^2$ ，与 $\mu_i$ 或者 $x_i$ 无关，因为可以说 $x_i$ 转换后的值与 $y$ 具有线性关系

上图，每一个饲料下的小猪体重是相同的 (点击查看绘图代码)
所有的variance都在y上，x的测量是没有误差的
为方便使用maximum likelihood进程参数数据，小样本数据假设y服从常态分布，y很大时，由于中央极限定理，可忽略这一假设

对 $\beta_0与\beta_1$ 的解释

$\beta_0$ = the mean y when x = 0
$\beta_1$ x每变化一单位，y的平均值的变化

$E(y_i)=104.1+0.71x_i$
$\beta_0$ =104.1: 对于BMI=0的人，收缩压是104.1 mmHg
$\beta_1$ =0.71:BMI没增加一单位，收缩压增加0.71 mmHg（正的就是增加）

centering variables

由于不存在BMI=0的人，为了使 $\beta_0$ 更有意义，我们需要 $x_i$ 减去一个值

\beta^*_0

表示对于BMI=30的人，血压的平均值

Parameter estimation: the least-squares methods

通过微积分的额方法可解出

\beta_0

与

\beta_1

\beta_0

与

\beta_1

都是

y_i

与

x_i

的线性组合，也就是说

\beta_0

与

\beta_1

都是随机数

$\hat{\beta_1}= \sum_{n}^{i=1}y_i\omega_i$ ，其中 $\omega_i=\omega_i(x_1,\cdots , x_n)$
$\hat{\beta_0}= \sum_{n}^{i=1}y_i\gamma_i$ ，其中 $\gamma_i=\gamma_i(x_1,\cdots , x_n)$