Idée
On prend les quatre couples possibles $(x_0, x_1) \in {0,1}^2$ et on note pour chacun trois résultats : 1 quand les deux valent 1 (ET), 1 des qu'au moins une vaut 1 (OU), 1 quand exactement une vaut 1 (XOR).
Pourquoi
On prend les quatre couples possibles $(x_0, x_1) \in {0,1}^2$ et on note pour chacun le résultat de trois opérations classiques : ET vaut 1 seulement quand les deux valent 1 ; OU vaut 1 des qu'au moins une vaut 1 ; XOR (ou-exclusif) vaut 1 quand exactement une des deux vaut 1. Ces 4 exemples constituent le dataset d'apprentissage le plus simple possible. C'est exactement la table de verite des connecteurs logiques rencontres en logique propositionnelle de MPSI.
Outil
Table de verite des connecteurs logiques de MPSI ; aussi : trois fonctions ${0,1}^2 \to {0,1}$ a apprendre.
Formule
Deux ensembles finis $S_0, S_1 \subset \mathbb{R}^n$ sont dits linéairement séparables s'il existe $w \in \mathbb{R}^n$ et $b \in \mathbb{R}$ tels que $\langle w, x \rangle + b > 0$ pour tout $x \in S_1$ et $\langle w, x \rangle + b < 0$ pour tout $x \in S_0$. Geometriquement : il existe un hyperplan affine separant $S_0$ et $S_1$. Le PDF p3 utilise cette notion pour distinguer ET et OU (séparables, donc apprenables par un perceptron) de XOR (non séparable, donc impossible avec un seul neurone).
Piège
Le piège classique : voir XOR comme une variation mineure de OU (avec une seule case qui change : (1,1) → 0 au lieu de 1). On en déduit qu'un perceptron qui apprend OU pourra apprendre XOR avec un peu plus d'itérations. C'est une erreur de nature, pas de degré : XOR n'est pas linéairement séparable, donc aucune boucle d'entraînement, aucun learning rate, aucun nombre d'itérations ne fera converger un perceptron à une couche sur XOR.