Entraînement par descente de gradient stochastique — formule · Réseaux de neurones

Formule

Pour chaque itération $i \in {0, \dots, 299}$ : (1) $A = \text{forward}(X, \text{paramètres})$ ; (2) $\ell = \text{CrossEntropy}(A^T, Y)$ ; (3) $\ell.\text{backward()}$ calculé les gradients via autograd ; (4) $\text{optimizer.step()}$ met à jour chaque paramètre $\theta \leftarrow \theta - \alpha \cdot d\theta$ avec $\alpha = 1{,}1$ ; (5) $\text{optimizer.zero_grad()}$ remet les gradients à zéro pour l'itération suivante.