En bref

Un modèle de langage dense active l’intégralité de ses paramètres pour chaque token qu’il traite. Un modèle Mixture of Experts (MoE) fait autrement : il maintient un large ensemble de sous-réseaux spécialisés — les experts — et n’en active qu’une petite sélection pour chaque token. Résultat : un modèle peut avoir des centaines de milliards de paramètres en mémoire, mais n’en mobiliser que quelques dizaines de milliards au moment du calcul. C’est ce découplage entre capacité totale et coût de traitement qui a rendu le paradigme MoE central dans les architectures LLM depuis 2021.


Le problème que le MoE résout

Entraîner un modèle de langage plus grand améliore en général ses performances. Mais le coût de calcul croît proportionnellement à la taille : doubler le nombre de paramètres double (approximativement) les ressources nécessaires à chaque passe avant. Cette proportionnalité est le principal obstacle au passage à l’échelle.

L’intuition du MoE est plus ancienne que les Transformers. Elle trouve son acte fondateur moderne dans un article de 2017 signé par Noam Shazeer, Geoffrey Hinton et Jeff Dean : intégrer des couches MoE clairsemées dans un réseau de neurones, où un réseau de routage (le gating network) décide, pour chaque token, quels experts activer. Si l’on dispose de N experts et que l’on n’en active que K (avec K ≪ N), la capacité du modèle croît avec N, mais le coût de calcul ne croît qu’avec K. Shazeer et al. rapportent des gains de capacité supérieurs à 1000x avec des pertes mineures d’efficacité — sur des tâches de traduction automatique et de modélisation du langage.


Architecture : comment ça fonctionne

Dans un Transformer standard, chaque couche contient un bloc d’attention et un bloc feed-forward (FFN). Dans une architecture MoE, le bloc FFN est remplacé par un ensemble d’experts — typiquement des FFN distincts — et un routeur qui sélectionne, pour chaque token, K experts à activer.

Le routeur

Le routeur est un composant léger (souvent une simple couche linéaire suivie d’un softmax) qui produit pour chaque token un vecteur de scores sur l’ensemble des experts. Les K experts ayant les scores les plus élevés sont activés. On parle de routage top-K, avec K=1 ou K=2 dans la grande majorité des implémentations actuelles.

Switch Transformer (2021) a montré que K=1 — un seul expert par token — suffisait à obtenir des gains significatifs tout en simplifiant le routage et en réduisant l’instabilité d’entraînement. Les auteurs rapportent des accélérations de pré-entraînement jusqu’à 7x par rapport au modèle dense de référence, et parviennent à entraîner un modèle d’un billion de paramètres en faible précision — une première.

Mixtral et DeepSeek : le MoE dans les LLM grand public

Mixtral 8x7B (Mistral AI, 2024) a marqué l’entrée du MoE sparse dans les LLM accessibles. Chaque couche dispose de 8 experts, le routeur en active 2 par token. Le modèle totalise 47 milliards de paramètres, mais n’en mobilise que 13 milliards par token lors de l’inférence. Mixtral surpasse Llama 2 70B et GPT-3.5 sur la majorité des benchmarks évalués, à coût computationnel bien inférieur. Sa licence Apache 2.0 a ouvert le paradigme à la communauté open source.

ModèleParamètres totauxParamètres actifs / tokenExperts / coucheK actifs
Switch Transformer (2021)1 000 Md~1/NConfigurable1
Mixtral 8x7B (2024)47 Md13 Md82
DeepSeekMoE 16B (2024)16 Md~3 Md64 (fins)Variable
DeepSeek-V3 (2024)671 Md37 Md256 (fins)Variable

DeepSeekMoE (2024) a introduit deux innovations sur cette base. D’abord, des experts plus fins et plus nombreux — plus petits individuellement, activés en plus grand nombre, ce qui permet des combinaisons plus flexibles. Ensuite, des shared experts toujours actifs, qui absorbent les connaissances communes à l’ensemble du corpus, réduisant la redondance entre experts routés. DeepSeek-V3 (671 milliards de paramètres, 37 milliards actifs par token) est à fin 2024 l’un des plus grands modèles MoE entraînés de bout en bout.


Ce que les avantages MoE cachent réellement

Le discours sur le MoE insiste sur l’efficacité computationnelle. La réalité est plus nuancée.

Le problème de load balancing

Sans mécanisme correctif, le routeur converge rapidement vers un comportement dégénéré : quelques experts captent la quasi-totalité des tokens, les autres ne s’entraînent presque jamais. Ce routing collapse rend le modèle aussi peu efficace qu’un dense de petite taille. Pour l’éviter, les architectures MoE introduisent une perte auxiliaire de rééquilibrage — une contrainte supplémentaire qui force le routeur à distribuer les tokens de façon plus uniforme.

Le problème est que cette perte interfère avec les gradients du modèle principal et nuit à la spécialisation des experts. ST-MoE (2022) a proposé la z-loss comme solution partielle. DeepSeek-V3 revendique avoir éliminé toute perte auxiliaire en ajustant dynamiquement les biais du routeur — une approche qui, si elle se confirme à l’échelle, résoudrait l’une des tensions fondamentales du paradigme.

La mémoire : le coût invisible

Un modèle MoE doit charger en mémoire l’intégralité de ses experts, même si seuls K d’entre eux sont actifs à chaque pas de calcul. Le benchmark MoE-CAP documente que les modèles MoE requièrent entre 4x et 14x plus de mémoire GPU qu’un modèle dense de performance équivalente. Un modèle présenté comme “plus efficace à l’inférence” peut ainsi être plus coûteux à déployer dès lors que la mémoire disponible est la contrainte réelle — ce qui est le cas sur la majorité des configurations pratiques.

Les FLOPs ne mesurent pas tout

La comparaison dense/MoE repose habituellement sur les FLOPs (opérations flottantes). Or les modèles MoE introduisent des communications all-to-all entre GPU pour acheminer les tokens vers les experts distribués sur différents dispositifs — un coût absent des calculs FLOP. Lorsque l’on mesure le temps réel par étape (qui inclut calcul et communication), l’avantage MoE se réduit par rapport aux comparaisons sur FLOPs seuls.

La rigidité du top-K

Une limitation moins souvent discutée : entraîner un modèle avec un K fixe crée une co-dépendance entre experts. Chaque expert apprend à collaborer avec exactement K-1 partenaires stables. Si l’on réduit K à l’inférence pour gagner en vitesse, la dégradation de performance est disproportionnée. Le modèle n’a pas de marge d’élasticité sur son degré de sparsité — une propriété que les architectures denses n’ont pas à gérer.


Les experts se spécialisent-ils vraiment ?

L’hypothèse implicite du MoE est que différents experts finissent par traiter des types de contenu distincts — certains se spécialisant sur le code, d’autres sur le raisonnement mathématique, d’autres encore sur certaines langues. Des travaux récents trouvent effectivement des patterns de spécialisation par domaine et par vocabulaire. Les études de probing sémantique montrent que le taux de chevauchement entre experts varie selon le sens contextuel d’un mot — ce qui suggère une sensibilité sémantique réelle du routeur.

Mais cette spécialisation est partielle, émergente, et non contrôlée. Elle apparaît comme un sous-produit de l’entraînement plutôt que comme une propriété garantie par l’architecture. Des travaux de 2025 indiquent en outre que la perte de rééquilibrage uniforme tend à homogénéiser les experts — ce qui va à l’encontre de l’objectif de spécialisation. La question de savoir dans quelle mesure les experts encodent des compétences véritablement distinctes reste ouverte.


Ce qu’il faut retenir

  • Le MoE découple la capacité totale du modèle (nombre total de paramètres) du coût de calcul par token : seule une fraction des experts est activée à chaque passe, via un routeur appris.
  • Cette architecture permet d’entraîner des modèles très larges à coût de calcul contenu — Mixtral 8x7B active 13 milliards de paramètres sur 47, DeepSeek-V3 active 37 milliards sur 671.
  • Les avantages en FLOPs ne se traduisent pas mécaniquement en avantages en déploiement : les modèles MoE consomment 4 à 14 fois plus de mémoire GPU qu’un modèle dense de performance équivalente, et génèrent des communications inter-GPU coûteuses.
  • Le load balancing — maintenir une distribution équilibrée des tokens entre experts — est une contrainte structurelle qui interfère avec la spécialisation des experts. Aucune solution pleinement satisfaisante n’a encore été validée à grande échelle.
  • La rigidité du top-K fixe limite l’élasticité à l’inférence : réduire le nombre d’experts actifs après entraînement dégrade les performances de façon disproportionnée.

Sources