Multimodalité — comment les LLM ont appris à voir et à entendre

De CLIP à GPT-4o, retour sur les mécanismes qui permettent aux grands modèles de traiter images, sons et texte au sein d'une même architecture — et sur leurs limites réelles.

En bref

Les grands modèles de langage ont longtemps été limités au texte. Puis, à partir de 2021, une idée a tout changé : construire un espace mathématique partagé où une image et sa description écrite se retrouvent au même endroit. Cette intuition — portée par CLIP — est la fondation sur laquelle repose l’essentiel de la vision artificielle actuelle. Mais “voir” pour un modèle ne signifie pas la même chose que pour un humain, et les données le montrent clairement.

Un espace partagé image-texte

En 2021, OpenAI publie CLIP (Contrastive Language-Image Pre-training). L’idée est simple à décrire : entraîner simultanément un encodeur d’images et un encodeur de texte sur 400 millions de paires (image, légende) collectées sur le web, de sorte que les deux représentations atterrissent au même endroit dans un espace vectoriel commun.

L’entraînement fonctionne par contraste : pour une paire (image, texte) associée, le modèle maximise leur similarité ; pour des paires non associées, il la minimise. Résultat : une photo de chat et la phrase “un chat roux sur un canapé” se retrouvent proches dans cet espace, tandis qu’une photo de montagne s’en éloigne.

Ce que ce résultat démontre, c’est que le signal linguistique seul suffit pour construire des représentations visuelles généralisables. CLIP atteint 76,2 % de précision sur ImageNet en zéro-shot — sans avoir vu une seule image labelisée ImageNet pendant l’entraînement — rivalisant avec un réseau de convolution entraîné en supervision complète. Cet espace partagé devient l’épine dorsale de presque toutes les architectures vision-langage des années suivantes.

Comment brancher une vision sur un LLM

Une fois qu’on sait encoder des images dans un espace vectoriel, la question devient : comment le connecter à un modèle de langage existant ?

Trois stratégies principales ont émergé.

La projection MLP (popularisée par LLaVA en 2023) est la plus directe : les vecteurs issus de l’encodeur visuel sont projetés via un réseau simple dans l’espace de tokens du LLM, qui les traite ensuite comme s’il s’agissait de mots. Simple et efficace, mais la fusion reste superficielle — le modèle de langage doit inférer les relations visuelles à partir de tokens qui lui sont, en quelque sorte, étrangers.

La cross-attention intercalée (approche de Flamingo, DeepMind, 2022) est plus expressive : des couches d’attention croisée sont insérées à intervalles réguliers dans le modèle de langage, permettant à chaque couche de “consulter” les représentations visuelles. Le LLM principal reste gelé — seules les couches ajoutées sont entraînées. C’est computationnellement plus coûteux, mais la fusion est plus profonde.

La tokenisation de l’image consiste à convertir l’image en tokens discrets directement injectés dans la séquence texte. L’image devient alors une suite de “mots visuels”, traités exactement comme du texte. Cette approche permet une intégration maximale, mais au prix d’une perte d’information fine.

GPT-4V (OpenAI, 2023) a marqué la première intégration à grande échelle dans un modèle commercial de frontière. L’architecture exacte n’a pas été publiée, mais les capacités démontrent un raisonnement visuel multi-étapes : lecture de graphiques, résolution de problèmes mathématiques avec schémas, compréhension de diagrammes techniques.

L’audio : une deuxième modalité, une autre approche

La même logique s’applique à l’audio, avec quelques différences importantes.

Whisper (OpenAI, 2022) démontre qu’un Transformer encoder-decoder entraîné sur 680 000 heures d’audio web produit une reconnaissance vocale robuste dans des dizaines de langues. Mais Whisper reste un convertisseur audio-vers-texte : il ne fusionne pas les modalités au niveau des représentations.

AudioPaLM (Google, 2023) va plus loin. Il fusionne PaLM-2 (un grand modèle de langage) et AudioLM (un modèle audio génératif) dans une architecture unifiée : l’audio est tokenisé en tokens discrets qui entrent dans la même séquence que les tokens texte. Le modèle peut traiter et générer simultanément du texte et de la parole, en préservant la prosodie et l’identité du locuteur.

SALMONN (2023, ICLR 2024) adopte une approche complémentaire avec deux encodeurs en parallèle : Whisper pour la parole, BEATs pour les sons non-verbaux. Leurs sorties sont fusionnées avant injection dans un LLM. Cela permet de comprendre simultanément ce qui est dit, les émotions dans la voix, et les sons d’environnement.

Génération d’image : quand le LLM orchestre

La multimodalité ne se limite pas à la compréhension — elle englobe aussi la génération.

DALL-E 2 (OpenAI, 2022) exploite l’espace CLIP comme pont : une description textuelle est encodée dans cet espace, un modèle de diffusion génère l’embedding d’image correspondant, puis un décodeur synthétise l’image finale. Stable Diffusion (2022) rend cette approche accessible sur du matériel grand public via une diffusion dans un espace latent compressé.

L’évolution décisive vient avec DALL-E 3 (2023) : ChatGPT reformule automatiquement les descriptions utilisateurs en prompts détaillés avant génération. Le LLM devient orchestrateur sémantique — ce n’est plus un modèle de génération isolé, mais un système où le langage pilote l’image.

GPT-4o (2024) va encore plus loin en intégrant la génération d’image directement dans le décodeur, signalant la convergence entre compréhension et génération au sein d’une même architecture.

Les modèles omnimodes : l’étape suivante

L’évolution structurante de 2024-2025 est l’émergence des modèles dits “omnimodes” — capables de traiter et de générer toute combinaison de modalités (texte, image, audio, vidéo) dans une architecture unifiée. GPT-4o, Gemini 1.5, et leurs équivalents en open-source incarnent cette tendance.

L’architecture type comprend quatre couches : des encodeurs spécialisés par modalité, une projection vers un espace de représentation commun, un traitement cross-modal par transformers, et des décodeurs spécialisés ou une tokenisation unifiée pour la génération.

La compétition entre trois approches reste ouverte : encodage continu (vecteurs flottants), encodage discret (tokens quantifiés), et approches hybrides. Chaque stratégie implique des compromis différents entre précision, coût de calcul et facilité d’intégration.

Ce que ces modèles ne font pas encore vraiment

Il y a un décalage notable entre les performances affichées et la réalité de la compréhension visuelle.

Le phénomène de hallucination visuelle est bien documenté : les modèles vision-langage génèrent des descriptions d’images plausibles linguistiquement mais incorrectes factuellement. Des analyses montrent que plus la séquence générée s’allonge, plus l’influence du signal visuel diminue au profit des régularités statistiques du texte — le modèle “devine” la suite plutôt que de “lire” l’image.

Le benchmark MMMU (11 500 questions de niveau universitaire dans six disciplines) révèle ces limites : GPT-4V plafonne à 56 %, Gemini Ultra à 59 %. La version durcie du benchmark (MMMU-Pro, ACL 2025) montre que les performances chutent de 17 à 27 points quand les questions sont intégrées dans les images plutôt que présentées en texte — preuve que les modèles exploitent la modalité texte même quand la réponse est visuellement évidente.

Un autre problème structurel est le “modality gap” : dans l’espace vectoriel de CLIP, les représentations visuelles et textuelles restent géométriquement séparées — un artefact de la perte contrastive elle-même, pas des modalités en tant que telles. Ce gap induit des biais : le modèle exploite des raccourcis linguistiques plutôt que des informations véritablement extraites de l’image.

Enfin, la tension entre architectures unifiées et modulaires reste ouverte. Les modèles omnimodes souffrent d’interférences entre modalités lors du fine-tuning. Les architectures à mélange d’experts tentent une voie médiane, mais au prix d’une complexité d’entraînement accrue.

Ce qu’il faut retenir

La multimodalité repose sur un espace mathématique partagé image-texte, rendu possible par CLIP (2021) : images et descriptions textuelles peuvent y être comparées directement.
Trois stratégies de fusion dominent : projection MLP (simple, superficielle), cross-attention intercalée (expressive, coûteuse), tokenisation de l’image (fusion profonde, perte d’information).
L’audio s’intègre selon la même logique : tokenisation des sons et injection dans la séquence texte, comme démontré par AudioPaLM et SALMONN.
Les modèles omnimodes (GPT-4o, Gemini 1.5) unifient toutes les modalités dans une seule architecture, mais la compétition entre approches d’encodage reste ouverte.
Ces modèles présentent des limites documentées : hallucinations visuelles, dépendance aux régularités textuelles, et un “modality gap” structurel. Les benchmarks les plus récents montrent que la compréhension visuelle profonde reste un problème non résolu.