Pilier 8

Réseau à 2 couches (Multi-Layer Perceptron)

Piège

Erreur structurelle : on pense 'plus de couches = plus de pouvoir'. Mais si l'activation entre couches est l'identité, deux couches $W_2(W_1 x + b_1) + b_2 = (W_2 W_1) x + (W_2 b_1 + b_2)$ sont équivalentes à une seule couche de poids $W = W_2 W_1$. C'est la non-linéarité (sigmoïde, ReLU) qui fait que l'empilement augmente la capacité d'expression. Sans elle, MLP = perceptron, peu importe la profondeur.