Dataset $(X, Y)$ — 100 plantes à deux variables

Idée

On dispose d'un tableau de 100 lignes et 2 colonnes (chaque ligne est une plante, chaque colonne une mesure) et d'un vecteur de 100 etiquettes valant 0 ou 1.

Pourquoi

On dispose d'un tableau $X$ de 100 lignes et 2 colonnes (chaque ligne est une plante, chaque colonne une mesure : longueur et largeur de feuille) et d'un vecteur $Y$ de 100 etiquettes valant $0$ (non toxique) ou $1$ (toxique). Le dataset est généré par make_blobs de scikit-learn avec une graine aléatoire fixee pour la reproductibilite. C'est exactement la structure d'un nuage de points etiquetes en géométrie analytique de spé : $m$ points dans $\mathbb{R}^n$ avec une fonction-classe $Y : {1,\dots,m} \to {0,1}$.

Outil

Nuage de points etiquetes en géométrie analytique : $m$ points dans $\mathbb{R}^n$ avec une fonction-classe $Y : {1,\dots,m} \to {0,1}$.

Formule

Le présentateur fixe ces deux nombres au début de la vidéo. Sans regarder, donner les deux.

Piège

Le présentateur dit 'on peut imaginer que ce dataset représente des plantes'. C'est une fiction pédagogique : les données sont générées par make_blobs (sklearn), purement synthétiques. Aucune plante n'a été mesurée. Confondre fiction pédagogique et expérience scientifique fait croire qu'on apprend de la biologie.