Le dictionnaire `parametres` : un sac etiquete pour W1, b1, W2, b2

Piège

Si W1 est un tenseur Pytorch requires_grad=True, faire parametres['W1'] = parametres['W1'] - lr * grad crée un nouveau tenseur (perd le requires_grad ou casse le graphe). Il faut soit .data -= (en place) soit utiliser optimizer.step(). Confondre les deux casse l'apprentissage Pytorch silencieusement.