Idée
Remonter le réseau à rebours, de la sortie vers l'entrée, pour distribuer la responsabilité de l'erreur sur chaque coefficient.
Pourquoi
Remonter le réseau à rebours, de la sortie vers l'entrée, pour distribuer la responsabilité de l'erreur sur chaque coefficient. La sortie a tort de tant — on en attribue une part au dernier étage, on en transmet le reste vers l'avant-dernier, et ainsi de suite.
Outil
Règle de la chaîne (analyse spé) appliquée à une composée : la dérivée d'une composition se calculé en propageant les dérivées partielles couche par couche, comme un produit de jacobiennes.
Formule
Soit $m$ le nombre d'exemples. $dZ^{(2)} = A^{(2)} - Y$ ; $dW^{(2)} = \frac{1}{m} dZ^{(2)} (A^{(1)})^T$ ; $db^{(2)} = \frac{1}{m} \sum_{\text{cols}} dZ^{(2)}$ ; $dZ^{(1)} = (W^{(2)})^T dZ^{(2)} \odot A^{(1)} \odot (1 - A^{(1)})$ ; $dW^{(1)} = \frac{1}{m} dZ^{(1)} X^T$ ; $db^{(1)} = \frac{1}{m} \sum_{\text{cols}} dZ^{(1)}$. Le terme $A^{(1)}(1-A^{(1)})$ est la dérivée de la sigmoïde.
Piège
Vidéo 9 : dZ1 = W2.T @ dZ2 * A1 * (1 - A1). Le .T est essentiel pour la cohérence dimensionnelle (n_1 = W2.T axis 0 doit être n_1 = dZ2 axis 0 wait). Sans .T, broadcasting silencieux ou erreur. C'est la ligne où la transposition fait la différence entre 'ça marche' et 'ça plante'.