Critical Point:梯度(gradient)为0的点
你可以说你的loss,没有办法再下降,也许是因為卡在了critical point,⇒local minima OR saddle point
- local minima:局部极小值
- 如果是卡在local minima,那可能就没有路可以走了
- saddle point:鞍点
- 卡在saddle point的话,saddle point旁边还是有路可以走的,
如何判断?⇒考察$\theta$附近Loss的梯度→泰勒展开→海塞矩阵$H$
第一项中,$L(\theta')$,当$\theta$跟$\theta'$很近的时候,$L$很靠近
第二项中,$g$代表梯度(一阶导数),可以弥补$L(\theta')$与$L(\theta)$之间的差距;$g$的第i个component,就是θ的第i个component对L的微分
第三项中,$H$表示海塞矩阵,是$L$的二阶导数
在Critical point附近时:第二项为0,根据第三项来判断→只需考察H的特征值
- 所有eigen value都是正的,H是positive definite (正定矩阵),此时就是local minima。
- 所有eigen value都是负的,H是negative definite,此时是local maxima
- 那如果eigen value有正有负,那就代表是saddle point,
实例: