L'astuce $dZ$ : factoriser la base commune des gradients

Idée

Tous les calculs de la couche commencent par la même chaîne ; on la nommé une fois et on la réutilise partout.

Outil

Comme une factorisation algébrique : on sort le facteur commun pour ne pas le recalculer.

Formule

Avec coût log-loss $L = -\frac{1}{m}\sum [y \ln a + (1-y)\ln(1-a)]$ et activation sigmoïde ($\partial a / \partial z = a(1-a)$) en sortie, on a $dZ^{[2]} = \frac{1}{m}\sum (A^{[2]} - Y)$. La simplification vient du produit $[-y/a + (1-y)/(1-a)] \cdot a(1-a)$ qui se réduit à $a - y$ après que les termes $ay$ se compensent.

Piège

Sémantiquement les deux écritures sont identiques en math. Mais le record /008 a été rejeté pour une formule erronée. Le bon code est dZ2 = A2 - Y (sans le 1/m, intégré dans la sommation/multiplication suivante quand on calcule dW2). Discipline : suivre l'implémentation du notebook, pas le transcript brut de la vidéo.