梯度下降

最后发布时间 : 2023-10-02 15:48:57 浏览量 :

Gradient Descent主要用于Regression中减少loss值
只要Loss function可微分，就可以使用Gradient Descent解出Loss值最小时参数的取值
Linear model： $y = b + \sum w_ix_i$ ,其中 $x_i$ 叫作fature， $w_i$ 叫作weight， $b$ 叫作bias

Example Application

假设要根据目前pokemon的战斗力值，预测进化后的战斗力值(Combat power) $f(x_{cp}) = y_{cp}$

步骤：

找一个model。model就是function的集合，eg. $y=b+w \cdot x_{cp}$ ( $x_{cp}$ 是进化前的战斗力，y是进化后的战斗力)，可以找出许多的w和b
从function set中找出一个function，评价该function的performance
找一个最好的function

现有10只pokemon training data：

用Loss function L，定义一个function的好坏

L(f) = L(w,b) \\=\sum_{n=1}^{10}(y_n-(b+w \cdot x_n))^2

pick the Best function
穷举所有的参数w,b，看哪一个w,b带入 $L(w,b)$ 让loss最小。

f^* = \argmin_f L(f) \\w^*,b^*=\argmin_{w,b} L(w,b) \\=\argmin_{w,b} \sum_{n=1}^{10}(y_n-(b+w \cdot x_n))^2

首先只考虑一个参数的Loss function， $w^*=\argmin_{w} L(w)$ ，找一个 $w^*$ 让 $L(w)$ 最小

随机选取一个初始值 $w_0$
计算在 $w=w_0$ 这个位置，参数w对loss function的微分 $\frac{\mathrm{d} L}{\mathrm{d} w}|_{w=w_0}$
微分值是负值，增加 $w_0$ 的值，向右边移动；微分值是正值，减少 $w_0$ 的值，向左边移动
$w_0$ 增加或减少的数值的计算: $\eta \frac{\mathrm{d} L}{\mathrm{d} w}|_{w=w_0}$ ， $\eta$ 叫作learning rate是事先定义好的数值
将 $w_0$ 更新为 $w_1$ ， $w_1 \leftarrow w_0 - \eta \frac{\mathrm{d} L}{\mathrm{d} w}|_{w=w_0}$
将 $w_1$ 更新为 $w_2$ ， $w_2 \leftarrow w_1 - \eta \frac{\mathrm{d} L}{\mathrm{d} w}|_{w=w_1}$
如果有Local minima，Gradient Descent不能找到global minima

两个参数的Loss function， $w^*,b^*=\argmin_{w,b} L(w,b)$ ，找出 $w^*,b^*$ 让 $L(w,b)$ 最小

随机选取初始值 $w_0,b_0$
计算在 $w=w_0,b=b_0$ w对loss 的偏微分和b对loss的偏微分 $\frac{\partial L }{\partial w}|_{w=w_0,b=b_0},\frac{\partial L}{\partial b}|_{w=w_0,b=b_0}$
更新 $w_0,b_0$ 这两个参数

w_1 \leftarrow w_0 - \eta \frac{\partial L}{\partial w}|_{w=w_0,b=b_0} \quad b_1 \leftarrow b_0 - \eta \frac{\partial L}{\partial b}|_{w=w_0,b=b_0}