deep_learning_7.数值稳定性和模型初始化
到目前为止,我们实现的每个模型都是根据某个预先指定的分布来初始化模型的参数。这样比较容易忽略模型初始值对训练的影响。 选择哪个函数以及如何初始化参数可以决定优化算法收敛的速度有多快。 糟糕选择可能会导致我们在训练时遇到梯度爆炸或梯度消失。 梯度消失和梯度爆炸当初始值选取的点不一样时,就会造成梯度消失或者是梯度爆炸的情况 所谓梯度消失是指,梯度的值在很小的范围内变化,导数接近于平滑的直线。 梯度爆炸