Boucle d'apprentissage — `artificial_neuron` — complet · Réseaux de neurones

Idée

Tout l'apprentissage tient en quatre lignes repetees : calcul des sorties, mesure de l'erreur, calcul des pentes, correction des coefficients.

Pourquoi

Tout l'apprentissage tient en quatre lignes repetees $n_{\text{iter}}$ fois : (1) calcul des sorties courantes $A = \mathrm{model}(X, W, b)$, (2) mesure de l'erreur $\ell = \mathrm{LogLoss}(A, Y)$, (3) calcul des pentes $dW, db = \mathrm{gradients}(A, X, Y)$, (4) correction $W, b = \mathrm{update}(\dots)$. C'est la structure d'une suite recurrente vectorielle $(W_k, b_k) = T(W_{k-1}, b_{k-1})$ ou $T$ est l'opérateur de descente, qu'on itere jusqu'a stabilisation.

Outil

Suite recurrente vectorielle $(W_k, b_k) = T(W_{k-1}, b_{k-1})$ ou $T$ est l'opérateur de descente, qu'on itere jusqu'a stabilisation.

Formule

Le présentateur calculé l'accuracy après entraînement et donné un nombre exact. Sans regarder, donner ce pourcentage.

Piège

Vidéo 5 : Loss.append(log_loss) à chaque itération. OK pour 100 itérations. Pour 100 000 itérations, la liste pèse 800 KB de floats — pas critique. Mais si on stocke aussi W, b à chaque iter (pour animation), la mémoire explose. Pratique courante : stocker tous les 100 ou 1000 iter.