En bref
La distillation de modèles est une technique d’entraînement : un grand modèle, appelé le teacher, guide l’apprentissage d’un petit modèle, l’student. L’objectif n’est pas de copier les paramètres du teacher — c’est de transférer ce qu’il sait. Le résultat est un modèle compact, rapide, déployable là où le teacher ne l’est pas.
Le problème que la distillation résout
Les grands modèles de langage (GPT-4, Llama 70B, DeepSeek R1) sont performants mais coûteux : en énergie, en mémoire, en latence. Les déployer sur un téléphone ou dans un système embarqué est impraticable. La solution évidente — entraîner un modèle plus petit directement — fonctionne, mais produit souvent un modèle médiocre. Le petit modèle n’a pas assez de signal pour apprendre ce que le grand a extrait de milliards de données.
La distillation change le problème. Plutôt que d’apprendre du monde brut, le student apprend du teacher. Il profite d’un signal déjà distillé, organisé, structuré.
Le maître et l’apprenti
L’analogie tient. Un maître artisan n’enseigne pas en montrant des milliers de pièces ratées — il montre comment il raisonne face à un problème. Il dit : “ce matériau ressemble à celui-là, il se travaille de telle façon”. L’apprenti apprend plus vite parce que l’enseignement est concentré.
En apprentissage automatique, ce “comment il raisonne” se traduit par les soft targets : la distribution de probabilité complète produite par le teacher sur chaque exemple. Quand le teacher prédit un token, il n’assigne pas 100% à un seul candidat. Il répartit sa confiance — 60% pour “chat”, 30% pour “félin”, 5% pour “tigre”, etc. Cette distribution porte de l’information sur les relations entre concepts. Elle dit que “chat” et “tigre” sont plus proches que “chat” et “table”.
Un label binaire classique (hard target) efface cette information. La distillation la conserve.
Le concept a été formalisé par Hinton, Vinyals et Dean en 2015. La fonction de perte distillation combine deux signaux : la cross-entropie sur les vraies étiquettes, et la divergence entre les distributions teacher et student. Un paramètre de température (T > 1) adoucit les distributions pour amplifier les signaux faibles.
Trois grandes familles de méthodes
Distillation par logits
C’est la forme originale, décrite par Hinton en 2015. Le student imite les sorties du teacher — ses logits ou ses probabilités — sans avoir accès aux couches internes. Simple à mettre en œuvre, applicable en boîte noire.
DistilBERT (Hugging Face, 2019) en est l’exemple canonique. Il est 40% plus petit que BERT, 60% plus rapide, et conserve 97% des performances sur GLUE. Il combine distillation des logits, alignement des représentations cachées et entraînement classique sur les données.
Distillation par représentations intermédiaires
Ici, le student apprend à reproduire non seulement les sorties du teacher, mais aussi ses états internes : activations des couches cachées, matrices d’attention. Ce signal supplémentaire guide la compression plus précisément. En contrepartie, il faut un accès “white-box” au teacher — ses poids doivent être accessibles, pas seulement ses sorties.
Distillation de données
Variante moins connue mais efficace. Le teacher n’est pas un signal de supervision direct — il est un générateur de données. On lui demande de produire des exemples de haute qualité, soigneusement filtrés, qui serviront à entraîner le student. LIMA (2023) illustre ce principe : 1 000 exemples bien construits suffisent à approcher les performances du teacher sur de nombreuses tâches.
Microsoft Phi-4 (2025, 14B paramètres) pousse ce principe loin. Il combine distillation de données synthétiques et filtrage qualité intensif. Résultat : un modèle qui rivalise avec des modèles bien plus grands sur les benchmarks de mathématiques, de code et de raisonnement — et qui tourne localement sur CPU.
Distillation de raisonnement : le saut qualitatif
La distillation classique transfère de la compétence : le student apprend à produire des sorties proches du teacher. La distillation de raisonnement va plus loin — elle tente de transférer le processus de pensée.
Microsoft Orca (2023) est le premier exemple significatif. Le prompting du teacher (GPT-4) inclut une instruction explicite : “raisonne étape par étape et justifie ta réponse”. Les traces de raisonnement produites — pas seulement les réponses — servent de supervision au student (13B paramètres). Orca surpasse des modèles pourtant plus grands sur des benchmarks de raisonnement complexe.
DeepSeek-R1 (2025) pousse ce principe à l’échelle industrielle. DeepSeek distille son modèle de raisonnement (671B paramètres) vers des modèles denses de 1,5B à 70B paramètres. Le modèle distillé à 32B surpasse OpenAI o1-mini sur plusieurs benchmarks. Ce que l’on transfère ici, ce sont des chaînes de pensée — des capacités qualitatives, pas simplement de la compression.
Distillation, quantization, pruning : trois techniques complémentaires
Ces trois approches se complètent. Les confondre conduit à de mauvaises décisions d’architecture.
Pruning : on supprime des paramètres redondants dans le modèle — des connexions peu actives, des têtes d’attention inutiles. L’architecture devient plus légère. La précision baisse modérément (environ 89% conservée dans les benchmarks récents).
Distillation : on ré-entraîne l’architecture allégée sous la supervision du teacher. Elle récupère une partie des capacités perdues lors du pruning. C’est la seule technique capable de récupérer de la performance après compression. Elle est aussi la seule à permettre le transfert de capacités qualitatives.
Quantization : on réduit la précision numérique des poids (float32 → int8 ou int4). Le modèle prend moins de place en mémoire, calcule plus vite. Aucune modification d’architecture.
La séquence optimale identifiée empiriquement : pruning → distillation → quantization. Le pruning allège la structure. La distillation récupère la qualité. La quantization finalise la compression sans perturber les changements structurels déjà opérés. L’ordre compte : appliquer la quantization avant la distillation dégraderait le signal de supervision.
Une chaîne complète peut passer d’un modèle de 2,7B paramètres en float32 à un modèle équivalent de 700M en int8 — soit une réduction d’environ 14× — en conservant 85% des performances du teacher.
Self-distillation : apprendre de soi-même
Variante contre-intuitive : le teacher et le student sont le même modèle, ou deux versions proches. Un modèle conditionné sur la bonne réponse guide une version sans ce conditionnement. La self-distillation par renforcement (Self-Distilled RL, 2025) permet au modèle de découvrir des schémas de raisonnement via ses propres outputs.
Résultat empirique surprenant : la self-distillation peut faire émerger des capacités absentes du modèle initial. Le mécanisme n’est pas encore bien compris théoriquement, mais les résultats suggèrent que la distillation ne fait pas que compresser — elle peut aussi faire apparaître.
Limites et questions ouvertes
La distillation n’est pas magique. Plusieurs limites sont documentées.
Les capacités émergentes résistent mal au transfert. Un student trop petit ne peut pas supporter des capacités qui nécessitent une certaine taille d’architecture pour s’exprimer — quelle que soit la qualité du signal de supervision.
La dépendance au teacher est un risque. Si le teacher produit des raisonnements incorrects, le student les apprend. Ce biais se propage silencieusement, sans mécanisme de détection standardisé.
La distillation en boîte noire — accès uniquement aux sorties via API, sans les couches internes — est la forme dominante en pratique (on n’a pas toujours accès aux poids du teacher). Mais elle perd l’information des représentations intermédiaires. Des travaux récents (Generative Adversarial Distillation, 2025) tentent de combler ce gap, avec un coût computationnel élevé.
Enfin, pour les très petits modèles (moins de 3B paramètres), le bottleneck n’est plus la supervision mais la capacité architecturale du student. Passé un certain seuil de compression, améliorer le teacher ne change plus grand chose.
Ce qu’il faut retenir
- La distillation transfère le savoir d’un grand modèle (teacher) vers un petit (student) via les distributions de probabilité complètes — pas juste les étiquettes.
- Il existe trois grandes familles : distillation par logits (sorties), par représentations intermédiaires (couches cachées), et par données synthétiques.
- La distillation de raisonnement (Orca, DeepSeek-R1) transfère des capacités qualitatives, pas seulement de la compétence — c’est un saut conceptuel.
- Distillation, pruning et quantization sont complémentaires. La séquence optimale est pruning → distillation → quantization. La distillation est la seule technique capable de récupérer de la performance après compression.
- Les limites principales : les capacités émergentes résistent au transfert, et un student trop petit ne peut pas supporter ce que le teacher lui transmet.
Sources
- Hinton, G., Vinyals, O., Dean, J. (2015). Distilling the Knowledge in a Neural Network. NIPS Workshop.
- Mukherjee, S. et al. (2023). Orca: Progressive Learning from Complex Explanation Traces of GPT-4. Microsoft Research.
- Microsoft Research (2023). Orca 2: Teaching Small Language Models How to Reason.
- DeepSeek AI (2025). DeepSeek-R1. HuggingFace.
- Survey (2025). Knowledge distillation and dataset distillation of LLMs: emerging trends, challenges, future directions. Artificial Intelligence Review, Springer.
- arXiv (mars 2025). A Comprehensive Survey on Knowledge Distillation.
- NVIDIA (2025). Pruning and Distilling LLMs Using NVIDIA TensorRT Model Optimizer.
- IEEE Xplore (2025). Efficient LLMs for Edge Devices: Pruning, Quantization, and Distillation Techniques.
- arXiv (jan. 2026). Self-Distilled Reasoner: On-Policy Self-Distillation for LLMs.
- IBM (2024). What is Knowledge Distillation?.