Pont vers MNIST : ce réseau, plus large, lit les chiffres

Idée

Le même programme, en agrandissant juste les dimensions des tenseurs, apprend a reconnaitre des chiffres écrits à la main.

Pourquoi

Le notebook se termine en pointant vers le suivant : même architecture (deux couches, sigmoide, BCELoss, SGD, autograd), mais avec ne=784 (image 28x28 aplatie), nc=64 ou 128, ns=10. Aucune ligne de code structurelle ne change : seules les dimensions et la taille du dataset grossissent. C'est l'idée de scale : la même machine apprend XOR a 4 exemples et MNIST a 60000 ; ce qui change est la dimension de l'entrée et la patience de l'optimisation.

Outil

Comme un même schéma d'integration numérique resout aussi bien un oscillateur à un degre de liberte qu'un système planetaire : la methode est invariante d'echelle, seules les dimensions changent.

Formule

Vidéo 9 explique brièvement ce choix lors de l'animation. Sans regarder, donner la justification.

Piège

Vidéo 9 : 2, 4, 8, 16, 32 neurones cachés. Plus on augmente, mieux c'est... jusqu'à ce que. L'overfit arrive (modèle trop riche pour les données), le temps d'entraînement explose, et la mémoire saturé. La courbe accuracy(n_neurones) est concave puis plateau, pas monotone. La largeur optimale dépend de la quantité de données.