Piège
Intuition trompeuse : le learning rate $\alpha$ contrôle la 'vitesse' de descente, donc 'grand $\alpha$ = grand pas = vite'. La réalité : si $\alpha$ dépasse une valeur critique (liée à la plus grande valeur propre du Hessien de la loss), le pas dépasse le minimum à chaque itération et la loss diverge (oscille puis explose). Le bon $\alpha$ est un compromis : assez grand pour ne pas stagner, assez petit pour ne pas exploser.