Idée
On branche la sortie d'une couche dans l'entrée de la suivante : ce qui sort de l'étage 1 sert de données brutes à l'étage 2.
Pourquoi
On branche la sortie d'une couche dans l'entrée de la suivante : ce qui sort de la couche 1 sert de données brutes à la couche 2, et ainsi de suite. Chaque étage refait le même geste — combinaison pondérée puis seuil doux — sur des données déjà retravaillées par l'étage précédent. C'est exactement la composition de fonctions $f_3 \circ f_2 \circ f_1$ en analyse, sauf que chaque $f_\ell$ est paramétrée par ses propres $W^{[\ell]}, b^{[\ell]}$.
Outil
C'est la composition de fonctions $f_3 \circ f_2 \circ f_1$ vue en analyse, où chaque $f_\ell$ a ses propres paramètres.
Formule
Le présentateur écrit explicitement la formule reliant les couches. Sans regarder, donner la formule littérale.
Piège
Tentation : 'plus on met de couches, plus le réseau est puissant — donc empilons à fond' ou 'plus on met de neurones par couche, plus c'est fin'. Le cours dit littéralement les deux mais ajoute la contrepartie : chaque ajout (en profondeur ou en largeur) ralentit l'entraînement. Aucune des deux directions n'est gratuite. Il y à un équilibre à trouver — pas une dimension à maximiser. Conséquence MPSI : ne pas chercher 'la' bonne architecture en première lecture, comprendre que c'est un compromis.