Idée
Tout l'apprentissage tient en quatre lignes repetees : calcul des sorties, mesure de l'erreur, calcul des pentes, correction des coefficients.
Pourquoi
Tout l'apprentissage tient en quatre lignes repetees $n_{\text{iter}}$ fois : (1) calcul des sorties courantes $A = \mathrm{model}(X, W, b)$, (2) mesure de l'erreur $\ell = \mathrm{LogLoss}(A, Y)$, (3) calcul des pentes $dW, db = \mathrm{gradients}(A, X, Y)$, (4) correction $W, b = \mathrm{update}(\dots)$. C'est la structure d'une suite recurrente vectorielle $(W_k, b_k) = T(W_{k-1}, b_{k-1})$ ou $T$ est l'opérateur de descente, qu'on itere jusqu'a stabilisation.
Outil
Suite recurrente vectorielle $(W_k, b_k) = T(W_{k-1}, b_{k-1})$ ou $T$ est l'opérateur de descente, qu'on itere jusqu'a stabilisation.
Formule
Le présentateur calculé l'accuracy après entraînement et donné un nombre exact. Sans regarder, donner ce pourcentage.
Piège
Vidéo 5 : Loss.append(log_loss) à chaque itération. OK pour 100 itérations. Pour 100 000 itérations, la liste pèse 800 KB de floats — pas critique. Mais si on stocke aussi W, b à chaque iter (pour animation), la mémoire explose. Pratique courante : stocker tous les 100 ou 1000 iter.