Piège
lr trop grand : la loss explose (NaN ou oscillations sauvages). lr trop petit : la loss descend très lentement. Méthode pratique : tracer la loss vs itérations. Si elle monte → lr trop grand. Si elle est plate → lr trop petit ou architecture trop pauvre. Le notebook trace systématiquement la loss pour cette raison.