Formule
Sans activation non-linéaire, deux couches successives $W_2(W_1 x + b_1) + b_2$ se collapsent en une seule transformation linéaire $W' x + b'$ — empiler ne sert à rien, on a toujours juste un perceptron. C'est pour ça qu'on insère une fonction non-linéaire $\sigma$ entre les couches : $W_2 \sigma(W_1 x + b_1) + b_2$. Cette fonction casse la linéarité et permet au réseau de courber ses frontières de décision. Trois activations classiques : (i) la sigmoïde $\sigma(z) = 1/(1+e^{-z})$, lisse, entre 0 et 1, utilisée historiquement et pour la sortie binaire ; (ii) la tangente hyperbolique $\tanh$, version centrée en 0 ; (iii) le ReLU $\max(0, z)$, qui ne s'écrase pas pour les grandes valeurs et a remplacé la sigmoïde dans les couches cachées modernes. Le rôle de l'activation est purement de plier la ligne droite ; sans elle, pas d'apprentissage de motifs complexes comme XOR ou la reconnaissance d'images.