Formule
Notations PDF (p9, section 3.3) : on a $W_1 \in \mathcal{M}{n_c, n_e}(\mathbb{R})$, $b_1 \in \mathbb{R}^{n_c}$, $W_2 \in \mathcal{M}{n_s, n_c}(\mathbb{R})$, $b_2 \in \mathbb{R}^{n_s}$ avec $n_e$ entrées, $n_c$ neurones caches, $n_s$ sorties. Pour un batch $X \in \mathcal{M}{n_e, m}(\mathbb{R})$ (attention : colonnes = exemples, contrairement à la partie 2) : $$Z_1 = W_1 X + b_1, \quad A_1 = \sigma(Z_1), \quad Z_2 = W_2 A_1 + b_2, \quad A_2 = \sigma(Z_2).$$ La sortie $A_2 \in \mathcal{M}{n_s, m}$ donné la prediction du réseau pour chaque exemple.