Descente de gradient — la bille dans la cuvette

Formule

La fonction update(dW, db, W, b, learning_rate) appliqué la descente de gradient : $$W \leftarrow W - \alpha, dW, \qquad b \leftarrow b - \alpha, db,$$ ou $\alpha$ est le learning_rate (defaut $0.1$). Pour que la soustraction ait un sens, $dW$ doit avoir exactement la même dimension que $W$ (ici $(n,1)$) ; le vidéo le verifie experimentalement.