En bref
Entraîner un grand modèle de langage ne se résume pas à empiler des GPU. Ces milliers de puces doivent échanger en permanence des milliards de paramètres — et la vitesse à laquelle elles y parviennent conditionne directement la performance globale du système. Le réseau haute performance est le tissu conjonctif invisible qui transforme un entrepôt de processeurs en machine cohérente. Sans lui, la puissance de calcul brute reste largement inexploitée.
Le paradoxe du GPU vedette
Un GPU A100 ou H100 affiche des chiffres spectaculaires sur fiche technique. Ces chiffres meublent les annonces, alimentent les comparatifs, structurent les achats. Pourtant, à l’échelle d’un cluster d’entraînement, une règle empirique s’impose : la moitié des gains de performance viennent non pas du calcul lui-même, mais de la capacité à faire circuler les données entre les puces.
La raison est mécanique. L’entraînement distribué découpe un modèle et ses données sur des centaines ou des milliers de GPU. À chaque étape, les gradients calculés localement doivent être agrégés, redistribués, synchronisés. Si ce transfert est lent, les GPU attendent. Un processeur à 1000 TFLOP/s qui attend 40 % du temps ne délivre effectivement que 600 TFLOP/s. Le réseau est le goulot d’étranglement silencieux.
Trois couches d’interconnexion
L’infrastructure réseau d’un datacenter IA s’organise en trois niveaux distincts, chacun avec sa technologie, ses débits et ses contraintes.
La première couche : l’autoroute intra-nœud
À l’intérieur d’un serveur, les GPU communiquent via NVLink. La version 4.0, introduite avec Hopper, atteint 900 Go/s de bande passante totale entre huit GPU. La version 5.0, avec l’architecture Blackwell, double ce chiffre à 1 800 Go/s.
L’analogie de l’autoroute est juste : NVLink est une voie dédiée, à grande vitesse, qui ne partage pas sa capacité avec d’autres trafics. Le commutateur NVSwitch assure la topologie all-to-all — chaque GPU peut parler directement à chacun des sept autres sans transit par le CPU. Avec le NVL72 de l’architecture Blackwell, 72 GPU partagent le même fabric NVSwitch pour 1,8 To/s de bande passante totale. Ce n’est plus un serveur, c’est une architecture à part entière.
La deuxième couche : la route nationale inter-nœuds
Entre les serveurs, la technologie dominante est InfiniBand. Les générations successives — HDR à 200 Gb/s, NDR à 400 Gb/s, XDR à 800 Gb/s — ont multiplié les débits par quatre en quelques années. La caractéristique clé d’InfiniBand n’est pas seulement la vitesse : c’est la latence sub-microseconde, soit dix à cent fois inférieure à celle d’Ethernet standard.
Pour 10 000 GPU connectés via une topologie fat-tree InfiniBand NDR, le coût en commutateurs et câbles se chiffre en dizaines de millions d’euros. C’est 15 à 30 % du budget infrastructure total d’un cluster de cette taille. Le réseau n’est pas un accessoire — c’est une ligne budgétaire majeure.
La troisième couche : l’accès mémoire sans intermédiaire
RDMA — Remote Direct Memory Access — est le mécanisme qui permet à un GPU de lire ou d’écrire dans la mémoire d’un autre GPU sur un nœud distant, sans passer par le CPU. InfiniBand supporte RDMA nativement. RoCE (RDMA over Converged Ethernet) tente de reproduire ce comportement sur infrastructure Ethernet avec des contraintes de configuration supplémentaires pour garantir l’absence de perte de paquets.
Ce que font concrètement les données
Pendant l’entraînement, plusieurs opérations collectives circulent en permanence sur le réseau. All-reduce agrège les gradients de tous les GPU et redistribue la somme. All-gather collecte des fragments de tenseurs distribués. Reduce-scatter combine les deux en une seule passe optimisée.
Ces opérations sont orchestrées par NCCL (NVIDIA Collective Communications Library), qui détecte la topologie disponible et choisit l’algorithme le plus efficace. La bibliothèque est conçue pour exploiter simultanément NVLink en intra-nœud et InfiniBand en inter-nœud, en superposant les deux flux.
Ce que donnent les chiffres réels
Les résultats publiés permettent de quantifier l’enjeu. L’article Megatron-LM de 2021 (Narayanan et al.) rapporte 502 pétaflops mesurés sur 3 072 GPU, soit 52 % d’efficacité théorique. Ce chiffre intègre explicitement le parallélisme tensoriel intra-nœud via NVLink et le parallélisme pipeline inter-nœuds via InfiniBand : les deux couches réseau travaillent ensemble.
En 2024, l’article MegaScale (Jiang et al.) décrit un cluster de 12 288 GPU atteignant 55,2 % de MFU (Model FLOP Utilization). Le gain de 1,34x par rapport à Megatron provient en grande partie d’optimisations réseau : meilleure gestion des stragglers, chevauchement calcul-communication, topologie affinée.
ZeRO++ (Wang et al., 2023) réduit le volume de communication de 4x en quantifiant les poids et en restructurant les échanges, ce qui se traduit par un débit 2,16x supérieur sur un cluster de 384 GPU. FlashOverlap (Hong et al., 2025) va plus loin en chevauchant explicitement les phases de calcul et de communication pour atteindre une accélération de 1,65x.
Ces gains ne viennent pas de nouvelles puces. Ils viennent d’un meilleur usage du réseau existant.
Le problème du straggler
Un point souvent sous-estimé : dans un cluster de milliers de GPU, il suffit qu’un seul nœud réponde plus lentement — câble dégradé, commutateur congestionné, processus mal aligné — pour bloquer l’ensemble de la synchronisation. C’est le problème du straggler. Les stratégies pour le mitiger (détection active, redondance de chemins, ordonnancement adaptatif) consomment elles-mêmes du temps réseau. L’ingénierie réseau d’un grand cluster est autant une discipline de fiabilité qu’une discipline de performance.
La bataille UEC contre InfiniBand
Depuis 2023, une alliance industrielle tente de détrôner InfiniBand sur ce marché. L’Ultra Ethernet Consortium regroupe AMD, Intel, Microsoft, Meta et Broadcom autour d’un standard ouvert pour le réseau haute performance sur infrastructure Ethernet.
L’enjeu est considérable. InfiniBand est quasi-exclusivement fourni par NVIDIA depuis l’acquisition de Mellanox en 2020. Les grands opérateurs cloud et les hyperscalers — qui paient les dizaines de millions évoqués plus haut — ont tout intérêt à disposer d’une alternative. L’argument technique d’UEC repose sur SMaRTT (Segment-based Multi-pathing and Rapid Transport for Telemetry), un mécanisme de routage multichemin qui réduit la latence de queue. Les résultats préliminaires (Bonato et al., 2024) montrent 50 % d’amélioration par rapport à RoCE classique.
La bataille n’est pas seulement technique. Elle est industrielle et géopolitique. Un standard ouvert pour le réseau IA réduit la dépendance à un fournisseur unique et ouvre le marché à une concurrence plus large. Pour les acteurs qui cherchent à construire une infrastructure souveraine — en Europe comme ailleurs — c’est un enjeu structurant. Un cluster IA dont le réseau dépend d’un unique fournisseur américain est vulnérable à des restrictions d’export, des modifications tarifaires, ou des décisions unilatérales sur les roadmaps.
La compression des gradients est un autre terrain de débat actif. Réduire la précision des données échangées (quantification, sparsification) diminue le volume de communication mais peut introduire du bruit dans les gradients et dégrader la convergence. Le curseur entre efficacité réseau et qualité d’entraînement n’est pas encore fixé par consensus.
Ce qu’il faut retenir
- Un cluster GPU sous-utilisé est souvent un problème de réseau, pas de calcul : les GPU attendent leurs données.
- Trois niveaux d’interconnexion coexistent — NVLink intra-nœud (900-1800 Go/s), InfiniBand inter-nœuds (jusqu’à 800 Gb/s), RDMA pour l’accès mémoire sans CPU.
- Les opérations collectives (All-reduce, All-gather) sont le flux dominant sur le réseau pendant l’entraînement ; NCCL les orchestre.
- Les optimisations réseau publiées (ZeRO++, FlashOverlap, MegaScale) produisent des gains de 1,3x à 2,16x sans changer le matériel de calcul.
- La bataille UEC contre InfiniBand dépasse le technique : c’est un enjeu de souveraineté sur l’infrastructure IA pour qui veut s’affranchir d’une dépendance à un fournisseur unique.
Sources
- Narayanan et al., “Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM”, SC’21, 2021
- Jiang et al., “MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs”, NSDI 2024
- Wang et al., “ZeRO++: Extremely Efficient Collective Communication for Giant Model Training”, 2023
- De Sensi et al., “A Comprehensive Study of InfiniBand Performance for ML Workloads”, 2024
- Bonato et al., “SMaRTT: Segment-based Multi-pathing and Rapid Transport for Telemetry”, 2024
- Hong et al., “FlashOverlap: Enabling Efficient Compute-Communication Overlap for LLM Training”, 2025
- Zhao et al., “DeepSeek-V3 Technical Report”, ISCA 2025
- Ultra Ethernet Consortium, spécifications officielles, 2023