Pont vers MNIST : ce réseau, plus large, lit les chiffres

Piège

Vidéo 9 : 2, 4, 8, 16, 32 neurones cachés. Plus on augmente, mieux c'est... jusqu'à ce que. L'overfit arrive (modèle trop riche pour les données), le temps d'entraînement explose, et la mémoire saturé. La courbe accuracy(n_neurones) est concave puis plateau, pas monotone. La largeur optimale dépend de la quantité de données.