Backpropagation : remonter le chemin pour calculer les pentes

Idée

On rebrousse le chemin parcouru à l'aller pour calculer comment chaque réglage influe sur l'erreur finale.

Pourquoi

On rebrousse le chemin parcouru à l'aller pour calculer comment chaque réglage influe sur l'erreur finale. Comme la règle de la chaîne en spé : pour dériver une composition $f \circ g \circ h$, on dérive de l'extérieur vers l'intérieur, en multipliant les dérivées au passage. Ici on part de la fonction coût et on remonte couche par couche jusqu'aux paramètres $W^{[1]}$ et $b^{[1]}$ de la première couche.

Outil

Règle de la chaîne en spé : pour dériver une composition $f \circ g \circ h$, on dérive de l'extérieur vers l'intérieur en multipliant les dérivées.

Formule

Vidéo 8 explique l'ordre par la chain rule. Sans regarder, justifier mathématiquement cet ordre.

Piège

Backprop en feedforward : on a besoin de A (activations) pour reconstituer le forward et de Z (pré-activations) pour calculer $\sigma'(Z) = A(1-A)$. Confondre Z et A donné des gradients faux. Le notebook stocke A1, A2 pendant le forward pour les réutiliser. Discipline : forward stocke ce qu'il faut pour backward.