Mini-batch SGD et $\mathrm{epochs}$

Piège

Une epoch = un passage complet sur l'ensemble des données d'entraînement. Une itération = une mise à jour de poids = un mini-batch traité. Si le dataset a 60 000 exemples et le batch_size est 64, une epoch = 60 000/64 ≈ 938 itérations. Confondre les deux fait croire qu'on entraîne 200× sur les données alors qu'on fait 200 itérations soit 200/938 ≈ 0.2 epoch.