Descente de gradient — la bille qui descend la pente

Piège

On choisit $\alpha$ trop grand parce que « ça converge plus vite » et la bille saute par-dessus le creux : la loss oscille ou diverge. On choisit $\alpha$ trop petit et l'entraînement n'avance plus — le diagnostic empirique est de tracer la loss au cours des époques et d'ajuster $\alpha$ d'un facteur 10 jusqu'à voir une décroissance régulière.