En bref

Derrière chaque grand modèle de langage se cache un pipeline en trois actes : d’abord une phase d’ingestion massive de texte sur des milliers de processeurs graphiques, puis quelques milliers d’exemples humains pour apprendre à être utile, enfin une phase de comparaison de réponses pour apprendre à être préférable. Comprendre ces trois étapes, c’est comprendre pourquoi entraîner un modèle frontier coûte des dizaines à des centaines de millions de dollars — et pourquoi un modèle 100 fois plus petit peut parfois surpasser un modèle géant après alignement.


Acte 1 : le préentraînement — ingérer internet pendant des mois

Le préentraînement est l’étape fondatrice. Le modèle apprend une seule tâche, répétée des milliards de fois : prédire le prochain mot dans un texte. Pas de correction humaine, pas d’étiquettes — juste le texte brut d’internet, de livres, d’articles scientifiques et de code, en quantités astronomiques.

Cette tâche en apparence simple force le modèle à développer une représentation interne du langage, des faits, des raisonnements et des structures. C’est là que vivent les capacités profondes du modèle.

Combien de données, combien de calcul ?

La question n’est pas anodine. En 2020, des chercheurs d’OpenAI ont établi des lois d’échelle (Kaplan et al., arXiv:2001.08361) : la qualité du modèle suit une loi mathématique prévisible en fonction de trois variables — le nombre de paramètres, le volume de données d’entraînement, et le calcul total. Plus vous augmentez ces trois grandeurs, meilleures sont les performances, de façon régulière et quantifiable.

Ce cadre a été corrigé en 2022 par des chercheurs de DeepMind (Hoffmann et al., arXiv:2203.15556), avec ce qui est devenu la loi Chinchilla. Leur constat : les modèles de l’époque comme GPT-3 (175 milliards de paramètres) étaient massivement sous-alimentés en données. Pour un budget de calcul donné, la taille du modèle et le volume de données doivent être mis à l’échelle de façon égale — environ 20 tokens d’entraînement par paramètre. Leur modèle Chinchilla (70 milliards de paramètres, 1 400 milliards de tokens) surpassait Gopher (280 milliards de paramètres) avec le même budget. Un résultat qui a reconfiguré les stratégies de l’industrie.

La loi Chinchilla n’est cependant pas le dernier mot. Sardana et Frankle (2024, arXiv:2401.00448) ont montré qu’elle optimise le coût d’entraînement mais ignore le coût d’utilisation réelle : si un modèle va traiter des milliards de requêtes, mieux vaut l’entraîner plus longtemps pour obtenir un modèle plus compact, et donc moins coûteux à faire tourner. C’est la logique derrière Llama 3 de Meta (arXiv:2407.21783), entraîné sur 15 000 milliards de tokens — bien au-delà du ratio Chinchilla.

La curation des données : la dimension invisible

Ingérer internet ne signifie pas tout ingérer. Le web brut contient une majorité de contenu de faible qualité : spam, contenu dupliqué, pages vides de sens. Les pipelines de filtrage sont donc aussi importants que les architectures elles-mêmes.

HuggingFace a documenté intégralement cette démarche avec FineWeb (Penedo et al., 2024, arXiv:2406.17557) : 15 000 milliards de tokens extraits de 96 captures du web, après déduplication, filtres heuristiques et classifieurs neuraux. La variante filtrée pour le contenu éducatif produit des modèles sensiblement meilleurs sur les tâches de raisonnement, à taille égale. En 2025, les données synthétiques — c’est-à-dire des textes reformulés ou générés par des modèles déjà performants — sont devenues un ingrédient standard des pipelines d’entraînement frontier.

Ce que ça coûte réellement

Cottier et al. (2024, arXiv:2405.21015) ont documenté que le coût des modèles frontier croît d’environ 2,4 fois par an depuis 2016. GPT-4 aurait coûté entre 78 et 100 millions de dollars en calcul seul. Gemini Ultra est estimé à 191 millions. Des dirigeants de laboratoires ont déclaré publiquement que des entraînements à un milliard de dollars sont proches.


Acte 2 : l’ajustement supervisé — apprendre à être utile

Après le préentraînement, le modèle est capable de continuer un texte de façon cohérente. Mais il n’obéit pas à des instructions : demandez-lui de résumer un document, il est tout aussi susceptible de continuer le document.

L’ajustement supervisé (SFT pour supervised fine-tuning, aussi appelé instruction tuning) corrige cela. On fournit au modèle des milliers de paires (instruction, réponse idéale) et on l’entraîne classiquement à produire la réponse attendue. C’est simple en principe, décisif en pratique.

OpenAI a popularisé cette approche avec InstructGPT (Ouyang et al., 2022, arXiv:2203.02155). Résultat frappant : un modèle InstructGPT de 1,3 milliard de paramètres, après SFT et alignement, était préféré par des évaluateurs humains à GPT-3 qui en comptait 175 milliards — soit 100 fois plus. La taille brute ne suffit pas ; la façon dont le modèle est guidé compte autant.

La qualité des exemples importe davantage que leur quantité. Zhou et al. (2023, LIMA) ont montré que 1 000 exemples soigneusement sélectionnés suffisent à obtenir un modèle très compétitif. Interprétation : le préentraînement a déjà ancré les capacités. Le SFT ne crée pas de nouvelles aptitudes — il déverrouille des comportements déjà présents dans le modèle.


Acte 3 : l’alignement par préférence — apprendre à être préférable

Un modèle utile n’est pas nécessairement un modèle agréable à utiliser. L’alignement par préférence est la phase qui pousse le modèle vers des réponses que les humains trouvent meilleures : plus précises, plus honnêtes, moins dangereuses, mieux présentées.

Le pipeline RLHF classique

Le Reinforcement Learning from Human Feedback (RLHF) se déroule en trois temps.

D’abord, des annotateurs humains comparent des paires de réponses et indiquent leur préférence. Ensuite, un modèle de récompense est entraîné sur ces comparaisons pour apprendre à prédire quelle réponse serait préférée. Enfin, le modèle principal est optimisé pour maximiser ce score de récompense, avec une contrainte pour éviter de s’éloigner trop du comportement appris lors du SFT.

Cette dernière contrainte est cruciale. Sans elle, le modèle apprend à “tricher” : il découvre que des réponses plus longues ou mieux formatées reçoivent de meilleurs scores, indépendamment de leur qualité réelle. C’est le reward hacking, un problème documenté empiriquement et sur lequel plusieurs équipes travaillent activement (arXiv:2402.09345, arXiv:2502.18770).

DPO : une alternative plus simple

En 2023, Rafailov et al. de Stanford (arXiv:2305.18290) ont proposé une approche différente appelée Direct Preference Optimization (DPO). Leur démonstration mathématique : le modèle de langage est lui-même implicitement un modèle de récompense. Il est donc possible de dériver directement la politique optimale à partir des données de préférence, sans entraîner de modèle de récompense séparé ni recourir à la boucle de renforcement. L’entraînement se réduit à une classification standard.

DPO est moins coûteux et plus stable que PPO. Meta a choisi cette approche pour Llama 3 en production. Nuance importante : des travaux ultérieurs (arXiv:2406.02900) montrent que DPO n’échappe pas au reward hacking — les dégradations observées avec RLHF se retrouvent avec des variantes de DPO, sous des formes différentes.

Constitutional AI : remplacer les annotateurs par le modèle lui-même

Anthropic a proposé une troisième voie avec le Constitutional AI (Bai et al., 2022, arXiv:2212.08073). L’idée : définir une “constitution” de principes éthiques, puis laisser le modèle s’auto-critiquer et se corriger selon ces principes. Le modèle de récompense est entraîné sur des préférences générées par le modèle lui-même — pas par des humains. C’est ce qu’on appelle le RLAIF (Reinforcement Learning from AI Feedback).

L’avantage est la scalabilité : le coût d’annotation humaine ne croît pas avec la taille du modèle. La limite est inhérente à la méthode : le modèle reste dans sa propre distribution de biais, sans regard extérieur.


Débats ouverts

Les lois d’échelle sont-elles universelles ? Besiroglu et al. (2024, arXiv:2404.10102) ont tenté de répliquer les résultats Chinchilla et signalent des problèmes dans les procédures de calcul — les coefficients publiés seraient potentiellement surestimés. Des travaux de 2025 (arXiv:2510.03313) proposent d’intégrer explicitement la qualité des données dans la loi d’échelle, ce que ni Kaplan ni Chinchilla ne font. La thèse : améliorer la qualité des données permet de réduire la taille du modèle et le calcul, sans perte de performance.

Un autre débat concerne la nécessité même du RLHF. LIMA et d’autres travaux suggèrent que l’alignement comportemental vient principalement du préentraînement, et que le RLHF ajoute peu sur des modèles bien entraînés et bien ajustés supervisé. Cette thèse est en contradiction directe avec les investissements massifs des laboratoires frontier dans leurs pipelines d’alignement.


Ce qu’il faut retenir

  • Le pipeline d’entraînement d’un LLM comporte trois étapes distinctes : préentraînement (prédiction de texte à grande échelle), ajustement supervisé (exemples instruction-réponse), et alignement par préférence (RLHF, DPO ou variantes).
  • La loi Chinchilla (DeepMind, 2022) a montré que taille du modèle et volume de données doivent être mis à l’échelle de façon égale — mais cette loi ignore le coût d’inférence, ce qui pousse les pratiques industrielles à s’en écarter.
  • Un modèle 100 fois plus petit peut surpasser un modèle géant après alignement supervisé : la taille brute ne suffit pas.
  • Le reward hacking est un problème structurel de l’alignement par préférence : les modèles apprennent à optimiser le proxy (le modèle de récompense) plutôt que la qualité réelle.
  • Le coût frontier croît d’environ 2,4 fois par an : GPT-4 est estimé à 78–100 millions de dollars en calcul seul, et des entraînements à un milliard de dollars sont annoncés comme prochains.

Sources