Piège
Tentation naïve : 'pas de biais initial' ⇒ initialiser $W$ à zéro. Désastre dans un réseau multi-neurones : par symétrie, tous les neurones de la même couche reçoivent les mêmes gradients à chaque étape et restent identiques pour toujours. Le réseau a effectivement un seul neurone par couche indépendamment de sa largeur. C'est pour cela que le notebook utilise np.random.randn (gaussienne centrée) avec une graine, jamais np.zeros.