Formule
On veut calculer $\partial L / \partial W^{[2]}$. Le gradient doit avoir la même dimension que $W^{[2]}$, soit $(n_2, n_1)$. On dispose de $dZ^{[2]}$ de dimension $(n_2, m)$ et de $A^{[1]}$ de dimension $(n_1, m)$. Justifiez en raisonnant sur les dimensions pourquoi la formule correcte est $dZ^{[2]} \cdot (A^{[1]})^T$ et non $dZ^{[2]} \cdot A^{[1]}$ ou $dZ^{[2]} \odot A^{[1]}$.