Benchmarks LLM — pourquoi les scores ne disent pas tout

MMLU, GSM8K, Chatbot Arena : comment mesure-t-on réellement la performance d'un modèle de langage ? État des lieux des méthodes, de leurs limites et des débats qui agitent la recherche.

En bref

Quand un laboratoire annonce que son modèle “bat le précédent sur MMLU”, que faut-il en penser ? Les benchmarks sont les instruments de mesure de l’IA, mais comme tout instrument, ils ont des angles morts. Contamination des données, saturation des scores, biais des évaluateurs automatiques : la recherche en évaluation des LLM est traversée par des débats fondamentaux. Comprendre ces limites, c’est comprendre ce que les classements mesurent vraiment — et ce qu’ils taisent.

Les benchmarks fondateurs

L’idée de base est simple : soumettre un modèle à un ensemble de questions avec des réponses connues, compter les bonnes réponses, comparer. Les premiers benchmarks importants sont tous apparus entre 2018 et 2022.

MMLU (Massive Multitask Language Understanding, Hendrycks et al., ICLR 2021) est le plus célèbre. Il couvre 57 disciplines — mathématiques, droit, médecine, histoire, informatique — sous forme de questionnaires à choix multiples, du niveau collège à l’expertise professionnelle. L’intuition : un modèle qui excelle sur 57 domaines possède une compréhension large. En 2021, GPT-3 atteignait à peine 20 points au-dessus du hasard. Trois ans plus tard, les modèles frontière dépassaient tous 88 à 90 %.

GSM8K (Cobbe et al., OpenAI, 2021) contient 8 500 problèmes de mathématiques de niveau primaire-collège, chacun requérant 2 à 8 étapes de raisonnement. Objectif initial : tester si les modèles peuvent enchaîner des inférences simples. En 2021, les meilleurs modèles échouaient systématiquement. En 2024, les modèles frontière dépassent 90 à 95 %.

HumanEval (Chen et al., OpenAI, 2021) évalue la génération de code : 164 problèmes de programmation avec des tests unitaires. Le critère est binaire — le code s’exécute et passe les tests, ou non. Codex résolvait 28,8 % des problèmes au premier essai. GPT-4 dépasse aujourd’hui 85 %.

TruthfulQA (Lin, Hilton, Evans, ACL 2022) adopte une approche différente : 817 questions conçues pour induire des erreurs typiques des humains — fausses croyances, mythes culturels, affirmations populaires mais inexactes. Résultat contre-intuitif à sa publication : les modèles les plus grands étaient initialement les moins véridiques, GPT-3 n’atteignant que 58 % contre 94 % pour les humains experts.

BIG-Bench (Srivastava et al., 2022) est une construction collective : 450 auteurs, 132 institutions, 204 tâches couvrant linguistique, mathématiques, biologie, physique et biais sociaux. Il inclut un sous-ensemble “Hard” (BBH) identifiant les 23 tâches les plus résistantes aux modèles.

Du score automatique au jugement humain

Les benchmarks automatiques ont une limite structurelle : ils comparent des sorties à des réponses de référence prédéfinies. Pour les tâches ouvertes — rédiger, expliquer, dialoguer — cette approche atteint ses bornes. Deux méthodes alternatives ont émergé.

MT-Bench (Zheng et al., NeurIPS 2023) propose 80 questions multi-tours couvrant 8 catégories : écriture, jeu de rôle, extraction, raisonnement, mathématiques, code, sciences. L’innovation principale est le concept de LLM-as-a-Judge : utiliser un LLM puissant — GPT-4 — comme évaluateur automatique à la place de juges humains. L’accord observé avec des annotations humaines expertes dépasse 80 %, ce qui a rendu l’approche populaire. Le même papier fondateur identifie cependant plusieurs biais structurels sur lesquels nous reviendrons.

Chatbot Arena (Chiang et al., ICML 2024) opte pour une évaluation humaine à grande échelle. Des utilisateurs réels posent des questions à deux modèles anonymes et votent pour le meilleur. Le classement utilise le modèle statistique de Bradley-Terry — le même que pour les classements d’échecs ou de tennis. En début 2024, la plateforme avait collecté plus de 240 000 votes de 90 000 utilisateurs dans plus de 100 langues. C’est devenu le leaderboard le plus cité par les laboratoires pour justifier leurs annonces.

Trois problèmes qui invalident les scores

La contamination

Le problème est structurel : les questions de test se retrouvent dans les données d’entraînement, intentionnellement ou non. Sur le benchmark APPS de programmation, StarCoder-7B atteint un score 4,9 fois plus élevé sur les exemples qui ont fuité que sur les autres. Pour GSM8K, des études ont mesuré des chutes de précision allant jusqu’à 13 % après suppression des exemples contaminés. Ce que le score mesure alors, ce n’est plus du raisonnement — c’est de la mémorisation. Deux surveys recensent l’ampleur du phénomène (arXiv:2406.04244, 2024 ; arXiv:2502.17521, 2025).

La saturation

Quand tous les modèles frontière dépassent 90 % sur un benchmark, celui-ci ne distingue plus rien. MMLU est saturé au-dessus de 88 %. GSM8K est saturé au-delà de 95 %. Le benchmark cesse d’être informatif précisément quand on en a le plus besoin — pour comparer les meilleurs modèles entre eux.

La réponse de la recherche a été d’élever le niveau : GPQA (questions de doctorat en chimie, biologie, physique), LiveCodeBench (problèmes publiés après la date de coupure d’entraînement), et Humanity’s Last Exam (2025), conçu explicitement pour résister aux modèles actuels avec 2 500 questions d’experts. SWE-Bench, pour sa part, évalue des agents capables de corriger de vrais bugs dans de vrais dépôts de code.

La validité de construction

Le problème le plus profond est le moins visible : un benchmark mesure-t-il ce qu’il prétend mesurer ?

Apple a apporté une démonstration frappante avec GSM-Symbolic (Mirzadeh et al., ICLR 2025). Les chercheurs ont pris des problèmes de GSM8K et ont simplement remplacé les valeurs numériques par d’autres valeurs, ou ajouté une clause non pertinente dans l’énoncé. Les modèles dont les scores GSM8K sont excellents s’effondrent sur ces variantes. Conclusion : ces modèles ne résolvent pas des problèmes mathématiques — ils reconnaissent des patterns vus à l’entraînement.

Plus généralement, une étude de 2025 (Frontiers in Artificial Intelligence) a analysé 445 benchmarks NLP : seulement 16 % utilisent des méthodes scientifiques rigoureuses. Environ la moitié prétendent mesurer des concepts abstraits comme le “raisonnement” ou l‘“utilité” sans définir précisément ces termes.

Les biais du LLM-as-a-Judge

L’évaluation automatique par LLM est commode, mais le papier fondateur de MT-Bench lui-même identifie plusieurs biais :

Biais de position : le modèle-juge favorise la réponse placée en premier dans la comparaison.
Biais de verbosité : les réponses longues sont préférées, même si elles sont redondantes.
Biais d’auto-renforcement : un LLM favorise ses propres sorties quand il les évalue.

Des travaux ultérieurs (Koo et al., arXiv:2410.02736, 2024) ont catalogué jusqu’à 12 types de biais distincts. Échanger l’ordre de présentation de deux réponses peut inverser le verdict dans plus de 10 % des cas pour des tâches de codage.

Chatbot Arena n’échappe pas non plus aux critiques : les votants ne sont pas représentatifs des utilisateurs professionnels, les réponses longues et assurées sont préférées indépendamment de leur exactitude, et la vérification factuelle n’entre pas dans les critères de vote.

Ce qu’il faut retenir

Les benchmarks historiques (MMLU, GSM8K) sont aujourd’hui saturés pour les modèles frontière : tous dépassent 90 %, ils ne servent plus à distinguer les meilleurs.
La contamination des données transforme une évaluation de raisonnement en évaluation de mémorisation. Les scores observés sur des exemples contaminés peuvent être plusieurs fois supérieurs aux scores réels.
GSM-Symbolic (Apple, ICLR 2025) a montré que d’excellents scores en mathématiques peuvent s’effondrer dès qu’on modifie légèrement l’énoncé — signe que les modèles suivent des patterns, pas un raisonnement général.
L’évaluation par LLM (LLM-as-a-Judge) est pratique mais biaisée : position, verbosité et auto-renforcement peuvent inverser les verdicts.
Chatbot Arena apporte une dimension humaine à grande échelle, mais ses votants ne sont pas représentatifs et n’évaluent pas la véracité factuelle.