Coût d'un réseau et descente de gradient — le même geste qu'un seul neurone

Formule

L'auteur rappelle que le gradient d'une fonction par rapport à un objet matriciel est un objet de mêmes dimensions que celui-ci. Justifier cette affirmation pour $\partial L/\partial W^{[\ell]}$ à partir de la définition du gradient.