Le problème
Cooper Flagg, la recrue phénomène, tourne à environ 21 points par match. LeBron James, le vétéran, à peu près pareil : 21 aussi. Deux joueurs, deux moyennes quasi identiques. Si tu ne regardes que cette ligne dans le journal, tu les classes ensemble.
Maintenant, une question simple : combien chacun va-t-il marquer ce soir ? Pour LeBron, parier sur 21 est un bon pari. Pour Flagg, beaucoup moins. Sur la même saison, il est monté à 51 points un soir et retombé à 2 un autre. La même moyenne recouvre deux réalités qui n'ont rien à voir.
Ce module règle ce problème. On va voir trois façons de résumer une série de matchs en un seul nombre, comprendre pourquoi elles donnent parfois des résultats très différents, et surtout savoir laquelle croire selon la situation.
Le concept (et ce que tu vas gagner)
On parle des trois mesures de tendance centrale : la moyenne, la médiane et le mode. Ce sont trois manières de répondre à « c'est quoi, le centre de cette série ? ».
À la fin de ce module, tu sauras :
- calculer et distinguer les trois, et dire laquelle décrit le mieux un « match typique » ;
- lire l'écart entre la moyenne et la médiane comme un signal : il te dit, sans même tracer de graphique, si une série est régulière ou déformée par quelques valeurs extrêmes ;
- décider quand utiliser la moyenne et quand lui préférer la médiane, et expliquer pourquoi ce choix change un verdict de recrutement ou de salaire.
La théorie en profondeur
Trois réponses à la même question
Prends la liste des points marqués par un joueur sur tous ses matchs. Tu veux la résumer en un seul nombre. Il y a trois réponses classiques, et elles ne mesurent pas la même chose.
La moyenne. On additionne tous les points et on divise par le nombre de matchs. Pour une série de valeurs notées x₁, x₂, …, xₙ :
moyenne = (x₁ + x₂ + … + xₙ) / n
L'intuition : c'est le point d'équilibre de la série. Si tu poses chaque match comme un poids sur une règle graduée en points, la moyenne est l'endroit où la règle tient en équilibre. Cette image explique tout son comportement : déplace un seul poids très loin vers la droite, et le point d'équilibre se décale vers la droite lui aussi. La moyenne tient compte de la valeur exacte de chaque match, donc un seul match énorme la tire vers le haut. Autre conséquence : elle peut tomber sur un nombre que le joueur n'a jamais marqué (21,0 points, ça n'existe pas dans un box score).
La médiane. On trie les matchs du plus petit au plus grand et on prend celui du milieu : autant de matchs au-dessus qu'en dessous. Avec un nombre impair de matchs, c'est la valeur centrale. Avec un nombre pair, il n'y a pas de « milieu » unique, alors on prend la moyenne des deux valeurs centrales.
L'intuition est totalement différente de la moyenne : la médiane ne regarde pas combien valent les matchs, seulement leur ordre. Le plus gros carton de la saison, qu'il soit à 40 ou à 70 points, c'est juste « le dernier de la liste triée ». Il ne pèse pas plus qu'un autre. C'est de là que vient sa propriété la plus utile : la robustesse. Tu peux remplacer la moitié des matchs les plus hauts par des scores délirants sans bouger la médiane d'un point. On dit que son point de rupture est de 50 % : il faut corrompre la moitié des données pour la faire dérailler. Pour la moyenne, une seule valeur suffit.
Le mode. C'est la valeur la plus fréquente, le score qui revient le plus souvent. Utile pour des données qui se répètent, mais à manier avec prudence sur des points : un joueur peut avoir deux scores aussi fréquents l'un que l'autre (le mode n'est alors pas unique), ou des scores tous différents (le mode ne veut plus rien dire). Sur une saison, le mode est souvent plus bas que la moyenne, parce que les petits scores se répètent plus facilement que les gros cartons. C'est une indication, pas un résumé fiable du « match typique ».
L'écart moyenne-médiane : un détecteur de déformation
Voici l'idée centrale du module, celle qui transforme trois définitions en un outil de diagnostic.
Quand une série est régulière (les matchs se ressemblent, pas de valeur qui sort vraiment du lot), les valeurs se répartissent de façon à peu près symétrique autour du centre. Dans ce cas, la moyenne et la médiane coïncident, parce que le point d'équilibre et la valeur du milieu tombent au même endroit.
Quand quelques matchs sortent du lot vers le haut, la moyenne se décale vers eux pendant que la médiane, insensible aux extrêmes, reste sur place. Résultat : moyenne supérieure à la médiane. On dit que la distribution est étirée vers la droite (on parle d'asymétrie, ou skew). Le raisonnement est symétrique : si les valeurs extrêmes sont vers le bas (un joueur souvent solide mais qui se blesse et plante quelques matchs à 4 points), la moyenne passe sous la médiane.
Donc, sans rien tracer, le simple signe de moyenne − médiane te raconte la forme de la saison :
| Ce que tu observes | Ce que ça veut dire | |---|---| | moyenne ≈ médiane | série régulière, symétrique, la moyenne dit vrai | | moyenne > médiane | étirée vers le haut, quelques gros cartons gonflent la moyenne | | moyenne < médiane | étirée vers le bas, quelques contre-performances plombent la moyenne |
Quand agir, et avec laquelle
L'écart est un signal, pas une alarme : un écart d'un dixième de point ne se commente pas. La question utile est : est-ce que l'écart est assez grand pour changer ma décision ?
- Pour décrire un match typique ou projeter le prochain match, prends la médiane dès que l'écart est net. Elle te donne ce que le joueur fait le plus souvent, sans se laisser éblouir par deux ou trois soirées de feu.
- Pour répartir un total ou comparer des volumes (combien de points une équipe peut espérer cumuler sur dix matchs, par exemple), la moyenne reste la bonne mesure : c'est elle qui se rajoute proprement, justement parce qu'elle compte la valeur exacte de chaque match.
- En analyse NBA, le réflexe est de regarder les deux côte à côte. Quand elles se confondent, un seul chiffre suffit. Quand elles s'écartent, tu sais qu'il y a une histoire derrière : irrégularité, gros cartons, ou contre-performances.
Le piège classique
La moyenne n'est pas « fausse » et la médiane n'est pas « meilleure ». Elles répondent à des questions différentes. L'erreur, c'est d'annoncer la moyenne de points d'un joueur très irrégulier comme si c'était sa performance attendue : tu surévalues ses soirs ordinaires à cause de quelques explosions. L'autre piège, c'est de croire le mode représentatif parce qu'il « revient souvent », alors qu'il ne capture qu'un pic local de la distribution. Garde en tête à quelle question chaque mesure répond, et tu ne te tromperas pas de chiffre.
Le code
Chargeons la vraie saison. Chaque ligne est un match, avec la date, l'adversaire et les points marqués. On isole nos deux joueurs.
Flagg va de 2 à 51 points, LeBron seulement de 8 à 36 : l'amplitude n'est déjà pas la même. Calculons les trois résumés pour chacun, et l'écart moyenne-médiane.
Le contraste est net. Chez Flagg, moyenne 21,0 contre médiane 19 : un écart de +2,0 points, le signe d'une série étirée vers le haut. Ses scores les plus fréquents (12 et 16) sont même sous sa moyenne. Chez LeBron, moyenne 20,9 contre médiane 21 : un écart de −0,1, autant dire rien. Même moyenne de ~21 points, deux signaux opposés.
D'où vient l'écart chez Flagg ? Des matchs hors-norme. Isolons-les, puis faisons une expérience de pensée pour voir qui résiste à un extrême.
Quatre matchs à 40 et plus, dont un pic à 51. Retire-les, et la moyenne tombe de 21,0 à 19,5, juste à côté de la médiane : la preuve que ce sont eux qui creusaient l'écart. La médiane, elle, bouge à peine (19 → 18). L'expérience de pensée est la plus parlante : remplace le record à 51 par un délirant 100 points, et la moyenne grimpe à 21,7 alors que la médiane ne bouge pas d'un pouce. Voilà la robustesse, en chiffres.
Maintenant, voyons les deux saisons en entier. Le bon graphique ici est l'histogramme : il montre la forme de la distribution, et on y superpose la moyenne (trait plein) et la médiane (trait pointillé) pour voir l'écart de ses propres yeux.
Tout est dans l'image. À gauche, Flagg : un gros paquet de matchs autour de 12-20 points, puis une traîne vers la droite (les cartons à 35, 42, 49, 51). Cette traîne tire le trait plein (moyenne) à droite du trait pointillé (médiane) : c'est l'écart, visible à l'œil. À droite, LeBron : une distribution presque symétrique, et les deux traits sont collés l'un à l'autre. Tu reconnais maintenant un joueur irrégulier d'un joueur régulier rien qu'à la position relative des deux traits.
À toi de jouer
- Cellule 2 : la fonction
resumeaccepte n'importe quel nom. Si la cellule 1 te montre d'autres joueurs, teste-les et regarde le signe de l'écart. - Cellule 3 : change le seuil
40(essaie35, puis50) pour voir combien de matchs comptent comme « hors-norme », et comment la moyenne réagit. - Cellule 4 : remplace
range(0, 56, 4)parrange(0, 56, 2)pour des barres plus fines, et observe si la traîne de Flagg ressort encore mieux.
Conclusion
La moyenne et la médiane ne se disputent pas la vérité : elles répondent à deux questions. La moyenne dit « si je répartissais tout également », la médiane dit « au milieu, c'est quoi ». Sur un joueur régulier comme LeBron, les deux disent la même chose. Sur un joueur à gros pics comme Flagg, elles se séparent, et cet écart est précisément l'information à lire.
Ce que ça change pour le basket
Choisir entre moyenne et médiane n'est pas un détail de statisticien, c'est une décision qui change un verdict. Annoncer la « moyenne de points » d'un joueur à gros pics comme Flagg surévalue son match courant, et un recruteur qui projette une performance sur cette seule base se trompe de cible. C'est pourquoi les services d'analyse NBA regardent presque toujours la médiane à côté de la moyenne : quand les deux s'écartent, ils savent qu'un joueur est soit irrégulier (quelques explosions qui gonflent la moyenne), soit plombé par des contre-performances. Le même raisonnement vaut pour un salaire, un temps de jeu, un nombre de rebonds. Savoir lequel utiliser, c'est éviter de payer un joueur pour des soirs qu'il ne rejoue jamais.
Ce que tu as appris
- Tu sais calculer et distinguer la moyenne (somme ÷ nombre de matchs, le point d'équilibre), la médiane (la valeur du milieu une fois trié) et le mode (la valeur la plus fréquente), et dire à quelle question chacune répond.
- Tu sais pourquoi la moyenne est sensible aux extrêmes (un seul carton la déplace, comme on l'a vu en poussant le record de Flagg à 100) alors que la médiane est robuste (il faudrait corrompre la moitié des matchs pour la bouger).
- Tu sais lire l'écart moyenne-médiane comme un détecteur de déformation : proches → série régulière (LeBron, écart −0,1) ; moyenne au-dessus → quelques gros cartons étirent la série vers le haut (Flagg, écart +2,0) ; moyenne en dessous → des contre-performances la tirent vers le bas.
- Tu sais quand agir : la moyenne sur des séries régulières et pour additionner des volumes, la médiane pour décrire un match typique dès que l'écart devient net.
Ce qui vient ensuite
Tu sais maintenant situer le centre d'une série de matchs. Mais l'histogramme de Flagg a montré autre chose que son centre : il était étalé, large, là où celui de LeBron était resserré. Cette largeur, c'est la régularité d'un joueur, et la moyenne ne la mesure pas. Le prochain module s'y attaque, avec la variance et l'écart-type.