Chain-of-Thought — comment faire réfléchir un LLM à voix haute

Depuis 2022, une technique de prompting simple — demander au modèle de détailler ses étapes — transforme les performances des LLM sur les tâches complexes. Tour d'horizon des mécanismes, des extensions, et des limites documentées.

En bref

Un modèle de langage génère ses réponses token par token, sans retour en arrière. Pour des problèmes qui nécessitent plusieurs étapes — calcul, logique, déduction — cette contrainte architecturale pose un problème réel. En 2022, des chercheurs de Google Brain ont montré qu’une modification minimaliste du prompt — inclure des exemples avec les étapes de raisonnement intermédiaires — suffisait à doubler les performances sur certains benchmarks. Cette technique, appelée Chain-of-Thought (CoT), a ouvert une décennie de recherche sur le raisonnement des LLM et reste au cœur d’un débat scientifique non tranché.

Le problème de fond : un modèle qui avance sans pouvoir reculer

Les modèles de langage sont autoregressifs : ils prédisent le token suivant à partir de tous les tokens précédents. Cette architecture est puissante pour la génération de texte, mais elle introduit une limite structurelle pour les tâches en plusieurs étapes. Un problème d’arithmétique ou de logique peut nécessiter d’explorer une piste, de la trouver sans issue, et de revenir en arrière — quelque chose qu’un modèle autorégressif pur ne peut pas faire nativement.

Avant 2022, les LLM échouaient de façon prévisible sur les benchmarks arithmétiques comme GSM8K (8 500 problèmes de mathématiques niveau école primaire en langage naturel) et logiques comme ARC (Abstraction and Reasoning Corpus). Les modèles plus grands progressaient, mais moins vite qu’attendu sur ces tâches précises.

Chain-of-Thought : l’idée minimaliste qui a changé l’évaluation

En janvier 2022, Jason Wei et ses collègues de Google Brain publient “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” (arXiv:2201.11903). La contribution tient en une phrase : fournir quelques exemples de résolution incluant les étapes intermédiaires dans le prompt déclenche un comportement similaire chez le modèle.

Concrètement, au lieu de donner :

Q : Roger a 5 balles de tennis. Il en achète 2 boîtes de 3. Combien en a-t-il ? R : 11

On donne :

Q : Roger a 5 balles de tennis. Il en achète 2 boîtes de 3. Combien en a-t-il ? R : Roger commence avec 5 balles. 2 boîtes de 3 font 6 balles. 5 + 6 = 11.

Le modèle — PaLM 540B dans les expériences originales — imite ce format et applique le même schéma aux nouvelles questions. Sur GSM8K, le CoT double les performances par rapport au prompting standard et dépasse GPT-3 entraîné spécifiquement avec un vérificateur externe.

Deux observations empiriques structurent le papier : l’effet est absent sur les modèles de moins de ~100 milliards de paramètres, et il est robuste sur trois types de raisonnement — arithmétique, logique de bon sens, et symbolique. Les auteurs interprètent cela comme l’exploitation de traces de raisonnement présentes dans les données d’entraînement à grande échelle.

Les extensions : self-consistency, least-to-most, Tree of Thoughts

Self-consistency : voter sur plusieurs chemins

Wang et al. (2022, arXiv:2203.11171) poussent l’idée plus loin : au lieu de générer un seul chemin de raisonnement, on en génère plusieurs par échantillonnage, puis on vote majoritairement sur la réponse finale. L’intuition est que des chemins différents menant à la même réponse constituent un signal de fiabilité. Le gain mesuré est de +17,9 points sur GSM8K.

Least-to-most : décomposer avant de résoudre

Zhou et al. (2022, arXiv:2205.10625) proposent une décomposition préalable : identifier les sous-problèmes du plus simple au plus difficile, puis les résoudre séquentiellement, chaque solution servant d’entrée à la suivante. Sur SCAN, un benchmark de généralisation compositionnelle, GPT-3 atteint 99 % d’exactitude avec cette méthode contre 16 % avec CoT standard.

Tree of Thoughts : raisonnement arborescent

Yao et al. (2023, arXiv:2305.10601) généralisent CoT en un cadre arborescent. Le modèle explore plusieurs “pensées” possibles à chaque étape, s’auto-évalue sur chaque branche, et peut revenir en arrière. C’est une implémentation explicite d’une recherche arborescente (BFS ou DFS) dans l’espace du raisonnement.

Les résultats sur le problème du “Game of 24” — trouver une combinaison de quatre chiffres qui donne 24 — illustrent l’écart : GPT-4 avec CoT standard résout 4 % des instances ; GPT-4 avec Tree of Thoughts atteint 74 %.

ReAct : raisonnement couplé à l’action

En parallèle, le même groupe publie ReAct (arXiv:2210.03629) : le modèle entrelace raisonnement interne et appels à des outils externes — bases de connaissances, moteurs de recherche, APIs. Ce travail pose les bases des architectures dites “agentiques”, où un modèle ne se contente plus de générer du texte mais interagit avec son environnement.

Le tournant 2024–2025 : entraîner le raisonnement au lieu de le susciter

CoT est une technique de prompting — elle s’applique à l’inférence sans modifier le modèle. À partir de 2024, un changement de paradigme s’opère : entraîner directement les modèles à raisonner via apprentissage par renforcement, et allouer dynamiquement plus de calcul aux problèmes difficiles.

OpenAI o1 (2024) est le premier modèle public à démontrer ce principe : le modèle “pense” avant de répondre, et la qualité des réponses augmente avec le temps de réflexion alloué. La recette d’entraînement reste confidentielle.

DeepSeek-R1 (arXiv:2501.12948, janvier 2025) rend publics les poids et la méthode. Formé via GRPO (Group Relative Policy Optimization) sans supervision CoT initiale, le modèle développe spontanément des comportements de vérification et de reconsidération. Sur AIME 2024, son score passe de 15,6 % à 71 %, atteignant 86,7 % avec vote majoritaire — comparable à o1.

Une recherche de 2026 (arXiv:2602.13517) introduit la notion de “deep-thinking tokens” : les tokens où les représentations internes du modèle évoluent significativement dans les couches profondes. La corrélation entre la proportion de ces tokens et la précision finale est de r = 0,828, là où la longueur brute de la trace de raisonnement corrèle négativement (r = −0,544). En d’autres termes, penser longtemps ne suffit pas — il faut penser avec intensité.

Ce que les critiques montrent

La fragilité face aux perturbations

Mirzadeh et al. (Apple Research, arXiv:2410.05229, ICLR 2025) publient GSM-Symbolic : les mêmes problèmes GSM8K avec des noms et des valeurs numériques modifiés. Les performances de tous les modèles testés se dégradent. Ajouter une information sémantiquement non pertinente à la question provoque des chutes allant jusqu’à 65 %. La conclusion des auteurs est que les modèles reproduisent des étapes de raisonnement présentes dans leurs données d’entraînement plutôt que de raisonner formellement.

Des traces parfois déconnectées des décisions réelles

Turpin et al. (arXiv:2305.04388, NeurIPS 2023) montrent que les chaînes de raisonnement peuvent être des rationalisations après coup. Le modèle détermine sa réponse via des biais implicites dans le prompt, puis génère une explication cohérente — mais qui ne reflète pas le processus réel. Sur 13 tâches BIG-Bench Hard, un biais introduit dans le prompt dégrade la précision jusqu’à 36 % sans que le modèle le mentionne dans sa trace.

Les “capacités émergentes” sont-elles un artefact de mesure ?

Schaeffer, Miranda et Koyejo (arXiv:2304.15004, NeurIPS 2023) montrent que l’apparente discontinuité des capacités émergentes — dont CoT — disparaît avec des métriques continues. Les améliorations sont linéaires et prévisibles ; c’est le choix d’une métrique binaire qui crée l’impression de saut qualitatif.

Ce qu’il faut retenir

Chain-of-Thought est une technique de prompting : inclure des exemples avec étapes intermédiaires induit un comportement similaire chez les modèles de grande taille, sans modifier le modèle.
L’effet est une capacité de grande échelle : il est absent ou faible sur les modèles de moins de ~100 milliards de paramètres.
Les extensions (self-consistency, least-to-most, Tree of Thoughts) ont chacune amélioré les résultats sur des types de tâches spécifiques, avec des gains mesurés sur des benchmarks de référence.
La transition vers les “reasoning models” (o1, DeepSeek-R1) intègre ce mécanisme dans l’entraînement lui-même via apprentissage par renforcement, et introduit le concept de test-time compute : allouer plus de calcul à l’inférence améliore la qualité des réponses.
La question “les LLM raisonnent-ils vraiment ?” reste empiriquement ouverte : des expériences rigoureuses (GSM-Symbolic, Turpin et al.) montrent des fragilités structurelles incompatibles avec un raisonnement formel robuste.