Piège
Tentation : alimenter le réseau directement avec les valeurs brutes des pixels (entiers de 0 à 255). Pourquoi c'est faux : les valeurs d'entrée sont alors deux ordres de grandeur plus grandes que les poids initialisés (qui suivent une loi normale standard). Les pré-activations $Z^{(1)} = W^{(1)} X + b^{(1)}$ saturent immédiatement la sigmoïde (toutes les sorties valent ~0 ou ~1), les gradients deviennent quasi-nuls (vanishing gradient), et l'apprentissage ne décolle pas. La normalisation $x \mapsto 2x - 1$ ramène l'entrée dans $[-1, 1]$ et préserve la dynamique des activations.