Formule
Une fonction de coût (ou loss) est un nombre $L(\theta)$ qui mesure à quel point le modèle, paramétré par $\theta = (w, b, \ldots)$, se trompe sur le dataset. Plus $L$ est petit, mieux le modèle prédit ; tout l'entraînement consiste à descendre $L$ par modification de $\theta$. Pour la classification binaire, on utilise la log-loss (ou entropie croisée binaire) : $L = -\frac{1}{m} \sum_{i} \big[ y_i \log(a_i) + (1 - y_i) \log(1 - a_i) \big]$, où $y_i \in {0, 1}$ est la vraie étiquette et $a_i \in (0, 1)$ la probabilité prédite. Pourquoi pas le simple $(a - y)^2$ ? Deux raisons : (i) l'entropie croisée explose quand le modèle prédit 0.99 alors que la vérité est 0 — c'est exactement ce qu'on veut, une prédiction sûre et fausse doit faire mal ; (ii) son gradient sur la sigmoïde se simplifie en $(a - y)$ pur, sans le facteur $\sigma'(z)$ qui écrase le signal d'apprentissage quand la sigmoïde saturé. C'est l'analogue probabiliste de la log-vraisemblance : minimiser l'entropie croisée, c'est maximiser la vraisemblance des données sous le modèle.