Constitutional AI — quand le modèle s'auto-aligne selon des principes écrits

Constitutional AI est une méthode d'alignement où un modèle critique et révise ses propres réponses selon une liste de principes, sans annotation humaine des sorties nuisibles.

En bref

Constitutional AI (CAI) est une méthode publiée par Anthropic en décembre 2022. Le principe : remplacer les annotations humaines sur les sorties nuisibles par un ensemble de principes écrits — la “constitution” — et laisser le modèle s’évaluer lui-même selon ces principes. Le modèle critique ses propres réponses, les révise, puis un second modèle d’évaluation entraîné sur ces jugements sert de signal de récompense pour le renforcement. Résultat : un pipeline d’alignement qui réduit massivement la dépendance aux annotateurs humains tout en maintenant des performances comparables au RLHF classique.

La limite que CAI cherche à contourner

Pour comprendre Constitutional AI, il faut d’abord comprendre ce qu’il cherche à éviter.

Dans le pipeline RLHF standard, des annotateurs humains lisent des paires de réponses et indiquent laquelle est préférable. Ces préférences servent à entraîner un modèle de récompense, qui guide ensuite l’entraînement par renforcement. Ce système fonctionne, mais il présente un problème d’échelle : annoter des sorties potentiellement nuisibles demande des humains formés, exposés à du contenu problématique, rémunérés à un coût élevé. Lee et al. (2024) chiffrent la différence à environ 1 dollar par annotation humaine contre moins de 0,01 dollar pour une annotation IA.

CAI propose une alternative : écrire explicitement ce que le modèle doit respecter, et lui confier l’évaluation de ses propres sorties selon ces règles.

La constitution : des principes, pas des données

La “constitution” est une liste de principes en langage naturel. Des exemples tirés du papier fondateur : “La réponse est-elle respectueuse des droits humains ?” ou “Aide-t-elle à éviter les préjudices physiques, psychologiques ou sociaux ?” Ce ne sont pas des règles de filtrage binaire — ce sont des critères d’évaluation que le modèle applique en produisant un raisonnement explicite.

La liste est courte. Elle est lisible par des humains. Elle est modifiable. C’est précisément ce qui distingue CAI d’une approche par données d’entraînement : la politique d’alignement est encodée dans un document, pas dans un corpus d’annotations implicites.

La boucle critique → révision → RLAIF

Le pipeline CAI se déroule en deux phases distinctes.

Phase 1 : apprentissage supervisé avec auto-critique (SL-CAI)

Le modèle de base reçoit un prompt potentiellement problématique et génère une première réponse. Ensuite :

Le modèle produit une critique de sa propre réponse en appliquant un principe constitutionnel tiré aléatoirement.
Il génère une réponse révisée tenant compte de cette critique.
Ce cycle peut être répété plusieurs fois sur la même réponse initiale.

À la fin, le modèle est affiné par SFT (Supervised Fine-Tuning) sur les réponses révisées finales. Le raisonnement critique peut être intégré au processus via chain-of-thought, ce qui rend le processus d’évaluation transparent et analysable.

Phase 2 : renforcement à partir de feedback IA (RLAIF)

Le modèle SL-CAI génère deux réponses candidates pour un même prompt. Un modèle évaluateur — entraîné ou interrogé directement — détermine laquelle respecte mieux un principe constitutionnel. Ces préférences IA constituent un jeu de données synthétique de préférences. Un modèle de récompense (Preference Model) est entraîné dessus. Enfin, le modèle final est entraîné par renforcement en utilisant ce PM comme signal de récompense.

La boucle complète : un humain écrit des principes → le modèle s’auto-critique → les jugements IA remplacent les annotations humaines → un modèle de récompense encode ces jugements → le renforcement affine le modèle final.

CAI vs RLHF : ce que les données montrent

La question empirique centrale est directe : un modèle aligné avec du feedback IA atteint-il les performances d’un modèle aligné avec du feedback humain ?

Lee et al. (2024, ICML) ont comparé RLAIF et RLHF sur trois tâches : résumé, dialogue utile, dialogue inoffensif. Les résultats principaux :

Sur résumé et dialogue utile, les performances sont comparables.
Sur dialogue inoffensif, RLAIF dépasse RLHF (88 % vs 76 % de taux d’inoffensivité), les deux surpassant le SFT baseline (64 %).
La variante Direct-RLAIF (d-RLAIF), qui interroge directement le LLM pendant l’entraînement RL sans construire de modèle de récompense intermédiaire, obtient des performances supérieures au RLAIF canonique.

L’avantage de scalabilité est réel : le coût par annotation est réduit de deux ordres de grandeur. Le pipeline peut être relancé sur de nouveaux prompts sans faire appel à des annotateurs.

Les limites documentées

La circularité de la constitution

La critique structurelle la plus solide est celle de la circularité. La constitution est choisie par Anthropic. Le modèle est aligné sur ces valeurs. Les évaluations vérifient que le modèle respecte… ces mêmes valeurs. La boucle est fermée sur elle-même. Qui valide que la constitution elle-même est alignée sur des valeurs humaines larges ?

Anthropic a tenté une réponse partielle avec Collective Constitutional AI (2024) : un processus d’input public impliquant environ 1 000 Américains via la plateforme Polis pour co-rédiger une constitution alternative. La constitution publique résultante présente environ 50 % de recouvrement conceptuel avec la constitution interne, mais insiste davantage sur l’objectivité et l’accessibilité. Le modèle CCAI montre un biais réduit sur 9 dimensions sociales mesurées. L’exercice est méthodologiquement intéressant, mais la représentativité culturelle et géographique reste limitée : 1 000 participants américains sur une plateforme en ligne ne constituent pas un panel représentatif mondial.

L’asymétrie principes positifs / négatifs

C3AI (ACM Web Conference 2025) documente un effet asymétrique : les modèles CAI gèrent bien les interdictions (“ne pas faire X”) mais peinent avec les prescriptions (“faire Y”). Les constitutions formulées positivement induisent des comportements moins prévisibles. C’est une contrainte pratique pour les concepteurs de constitutions.

La dégradation sur petits modèles

Des réplications du pipeline CAI sur Llama 3-8B avec DPO (2025) montrent des signes de model collapse lors des itérations. L’hypothèse : l’auto-critique n’est de qualité suffisante qu’au-delà d’un certain seuil de capacité du modèle. Ce seuil n’est pas encore quantifié. [NON VÉRIFIÉ — 1 seule source]

La tension inoffensivité / utilité

Le papier original le note explicitement : maximiser l’inoffensivité dégrade l’utilité. CAI cherche un modèle “inoffensif mais non évasif” — qui explique ses objections plutôt que de refuser sèchement. L’équilibre optimal reste empiriquement non établi et varie selon les domaines d’application.

Évolutions récentes

Le pipeline CAI continue d’évoluer. La substitution de PPO par DPO (Direct Preference Optimization) dans la phase RL simplifie l’entraînement tout en maintenant des performances comparables sur les modèles de grande taille.

En janvier 2026, Anthropic a publié une nouvelle constitution publique qui passe d’un alignement par règles à un alignement par raisonnement — les principes sont accompagnés d’une explication de leur logique. La hiérarchie déclarée comporte quatre niveaux : sécurité, éthique, conformité aux directives, utilité. Ce document est le premier d’une entreprise IA à reconnaître formellement la possibilité d’une conscience et d’un statut moral de l’IA.

Ce qu’il faut retenir

Constitutional AI remplace les annotations humaines des sorties nuisibles par une liste de principes écrits et un processus d’auto-critique du modèle.
La boucle fondamentale : critique → révision → feedback IA → renforcement. Chaque étape peut être auditée car elle produit du texte explicite.
RLAIF atteint des performances comparables à RLHF sur les tâches de dialogue, avec un coût par annotation environ 100 fois inférieur.
La limite structurelle principale est la circularité : la constitution est définie par ses concepteurs, et le modèle est évalué selon cette même constitution.
Le pipeline est sensible à la capacité du modèle de base : l’auto-critique nécessite une compétence suffisante pour être informative.
Les débats ouverts portent sur la légitimité démocratique de la constitution, l’asymétrie entre principes positifs et négatifs, et la généralisation à des langues et contextes culturels non anglophones.

Sources

Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073. https://arxiv.org/abs/2212.08073
Lee, H. et al. (2024). RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback. ICML 2024. arXiv:2309.00267. https://arxiv.org/abs/2309.00267
Anthropic Research. Collective Constitutional AI: Aligning a Language Model with Public Input (2024). https://www.anthropic.com/research/collective-constitutional-ai-aligning-a-language-model-with-public-input
Huang, C. et al. (2025). C3AI: Crafting and Evaluating Constitutions for Constitutional AI. ACM Web Conference 2025. https://dl.acm.org/doi/10.1145/3696410.3714705
Lambert, N. Constitutional AI & AI Feedback. RLHF Book, chapitre 13. https://rlhfbook.com/c/13-cai.html
Anthropic. Claude’s Constitution (janvier 2026). https://www.anthropic.com/constitution
Constitution or Collapse? Exploring Constitutional AI with Llama 3-8B (2025). arXiv:2504.04918. https://arxiv.org/html/2504.04918v1