Pilier 4

Activation = la non-linéarité qui rend deux couches utiles

Piège

Tentation classique : ecrire Z2 = W2 @ Z1 + b2 au lieu de Z2 = W2 @ A1 + b2. Le code tourne, les shapes sont coherentes, mais le réseau apprend mal : il est mathematiquement équivalent à un perceptron simple ($W_2 W_1 X + (W_2 b_1 + b_2)$ est une transformation affine), donc incapable d'apprendre XOR. Symptome : la loss stagne autour de la valeur d'un classifieur linéaire (~0.69 pour XOR).