En bref

Reconnaître une voix humaine, la transcrire, la synthétiser, lui répondre en temps réel : ces quatre opérations relèvent aujourd’hui de pipelines distincts ou de modèles unifiés selon les architectures. Le domaine couvre trois familles de modèles — STT (speech-to-text), TTS (text-to-speech) et les modèles multimodaux voix-texte dits speech-to-speech. Chaque famille a ses acteurs, ses benchmarks, ses compromis. Et ses risques.


Reconnaître la parole : le speech-to-text

Whisper, la référence open-source

Whisper (OpenAI, 2022) s’est imposé comme le modèle de référence en reconnaissance automatique de la parole. Son architecture est un encodeur-décodeur Transformer classique : l’encodeur transforme le signal audio en représentation latente, le décodeur génère les tokens texte. La version large-v3 compte 1,55 milliard de paramètres, entraînés sur plus de 5 millions d’heures d’audio labellisé.

En octobre 2024, OpenAI publie Whisper large-v3-turbo : le décodeur passe de 32 à 4 couches. Résultat — une vitesse 8 fois supérieure pour une dégradation de qualité marginale. Un compromis utile pour les déploiements en production où la latence compte.

En mars 2025, OpenAI lance gpt-4o-transcribe et sa variante mini. Le WER (Word Error Rate, taux d’erreur mot) chute d’environ 35 % par rapport à Whisper. Associée à la Realtime API (disponible en GA depuis août 2025), cette famille de modèles permet des interactions speech-to-speech à faible latence.

Les alternatives commerciales

Deepgram Nova-3 cible les cas d’usage production : transcription multilingue, temps-réel, robustesse au bruit. Benchmark de février 2026 : 8,1 % WER en anglais, 6,8 % en multilingue.

AssemblyAI a publié Universal-2 en 2024 (gain de précision alphanumérique de 21 %), puis Slam-1 en octobre 2025, avec streaming multilingue sur 6 langues et des guardrails de sécurité intégrés.

D’après un benchmark 2026 publié par AssemblyAI, gpt-4o-transcribe arrive en tête sur la précision anglaise (6,5 % WER), suivi par Deepgram Nova-3 et Universal-2. À noter : la majorité des benchmarks disponibles sont produits par les acteurs eux-mêmes — il n’existe pas encore de benchmark tiers standardisé, indépendant, couvrant les langues hors anglais.


Synthétiser la parole : le text-to-speech

ElevenLabs et le clonage vocal commercial

ElevenLabs s’est positionné comme leader du TTS commercial : 10 000 voix disponibles, 70 langues, clonage vocal à partir de quelques secondes d’audio de référence. La société a levé 80 millions de dollars en novembre 2025 et a élargi son offre à la génération vidéo synchronisée.

PlayHT monte en puissance. Dans les tests en aveugle du TTS Leaderboard, 65,77 % des utilisateurs préfèrent PlayHT à ElevenLabs sur certains benchmarks — ce qui illustre à la fois les progrès des challengers et la subjectivité inhérente à l’évaluation de la naturalité vocale.

L’open-source progresse

Plusieurs modèles ouverts atteignent des niveaux de qualité comparables aux offres commerciales :

  • Coqui XTTS v2.5 : clonage vocal à partir de 6 secondes d’audio de référence.
  • Bark : expressivité émotionnelle supérieure à ElevenLabs dans certains tests.
  • Piper : optimisé pour le déploiement edge et temps-réel (mobile, embarqué).
  • StyleTTS2 : naturalité proche des modèles commerciaux.
  • Chatterbox (2025) : clonage vocal depuis 5 secondes, 17 langues, sous licence Apache 2.0. Bat ElevenLabs dans des tests en aveugle selon ses développeurs.

Un jalon académique : VALL-E 2

VALL-E 2 (Microsoft Research, juin 2024) est présenté comme le premier modèle TTS zero-shot atteignant la parité humaine sur les benchmarks LibriSpeech et VCTK. Deux innovations techniques : le Repetition Aware Sampling (stabilisation du décodage autorégressif) et le Grouped Code Modeling (compression des séquences de codec audio). Ce modèle est en recherche uniquement — aucun déploiement public n’est prévu.

Les limites du TTS expressif

Les performances TTS chutent dès que l’on sort des registres neutres. La fidélité émotionnelle — sarcasme, urgence, tristesse — reste difficile à évaluer : il n’existe pas de benchmark public standardisé pour la prosodie. Les comparaisons restent subjectives. La rareté des données d’entraînement annotées en prosodie explique en partie cette limite.


La voix en temps réel : les modèles speech-to-speech

GPT-4o et la conversation vocale native

GPT-4o voice mode (OpenAI) traite directement le signal audio en entrée et en sortie, sans passer par une transcription intermédiaire. Le modèle détecte la prosodie (sarcasme, urgence, hésitation), gère les interruptions de façon fluide et maintient une latence basse. L’API Realtime est disponible en GA depuis août 2025.

L’approche “end-to-end” — un seul modèle pour l’audio entrant et sortant — présente un compromis : elle améliore la latence mais peut dégrader la qualité de transcription par rapport à un pipeline STT + LLM + TTS séparé.

Gemini Live

Gemini Live (Google, mis à jour en 2025-2026) intègre l’ajustement du débit en temps réel, un ton émotionnel adaptatif et des options de changement d’accent. L’architecture est optimisée pour l’accessibilité. Limite notable : l’intégration API est moins ouverte que GPT-4o Realtime. Gemini Live reste principalement mobile-first.

Moshi : l’architecture full-duplex open-source

Moshi (Kyutai, France, juillet 2024) est un modèle fondation speech-text open-source conçu pour la conversation full-duplex — c’est-à-dire que le modèle peut parler et écouter simultanément, comme dans une vraie conversation.

Son architecture repose sur deux composants distincts : un Temporal Transformer (7 milliards de paramètres) qui capture les dépendances temporelles longues, et un Depth Transformer qui gère les dépendances entre les différentes couches du codec audio. Le codec neural Mimi (développé par Kyutai) encode l’audio à 12,5 Hz et 1,1 kbps, en combinant information sémantique et acoustique dans une représentation compacte.

La méthode Inner Monologue est particulièrement intéressante : avant de générer les tokens audio, le modèle prédit des tokens texte alignés temporellement. Cette étape intermédiaire améliore la factualité des réponses vocales.

Latence théorique : 160 ms (80 ms pour le frame Mimi + 80 ms de délai acoustique). En pratique, ~200 ms sur GPU L4.

Sesame CSM-1B : la naturalité conversationnelle

Sesame CSM-1B (Sesame AI, mars 2025, Apache 2.0) adopte une architecture deux niveaux : un backbone Llama (1 à 8 milliards de paramètres selon la variante) et un décodeur audio Mimi (100 à 300 millions de paramètres). Entraîné sur 1 million d’heures d’audio anglais, il génère des pauses naturelles, des hésitations, des rires et des variations tonales — des marqueurs de naturalité que les TTS classiques peinent à reproduire.


Les enjeux éthiques

La voix comme vecteur de fraude

Le voice cloning à partir de quelques secondes d’audio expose à une menace concrète : la génération de voix synthétiques indiscernables de l’original pour tromper des interlocuteurs ou usurper une identité. Les outils de détection (Resemble Detect, ElevenLabs Speech Classifier) sont en retard sur les modèles génératifs récents. La course entre génération et détection s’accélère.

Le cadre légal se construit lentement

Le Tennessee ELVIS Act (2024) est la première loi américaine protégeant explicitement les voix clonées par IA. L’EU AI Act classe le voice cloning comme usage IA à haut risque. Mais il n’existe pas encore de standard international — la jurisprudence sur la voix comme attribut de la personnalité reste fragmentaire.

La question de la provenance des données d’entraînement reste opaque pour les modèles commerciaux. Ni ElevenLabs ni PlayHT ne détaillent publiquement la composition de leurs corpus. Cela rend toute évaluation éthique et légale de la provenance impossible en l’état.

Le consentement : un angle mort

Le clonage vocal sans consentement explicite de la personne imitée ne dispose pas encore d’encadrement uniforme. Le droit à la voix comme attribut de la personnalité existe dans certaines juridictions, mais son application au cas des IA génératifs est en cours de construction judiciaire.


Ce qu’il faut retenir

  • Le STT est dominé par Whisper (open-source) et gpt-4o-transcribe (commercial), avec un WER anglais qui descend sous les 7 % pour les meilleurs modèles — mais les langues à faibles ressources restent nettement en retrait.
  • Le TTS commercial est concentré autour d’ElevenLabs et PlayHT ; l’open-source (Chatterbox, Coqui XTTS) progresse et rend le déploiement auto-hébergé viable.
  • Les modèles speech-to-speech (GPT-4o, Moshi, Sesame CSM) unifient la chaîne audio en un seul modèle, au prix d’un compromis latence/qualité encore mal calibré empiriquement.
  • Le voice cloning est techniquement accessible depuis quelques secondes d’audio. Le cadre légal existe mais reste fragmenté. Les outils de détection sont dépassés par les modèles génératifs récents.
  • Les benchmarks disponibles sont majoritairement publiés par les acteurs eux-mêmes. Il n’existe pas encore de benchmark tiers standardisé pour les langues hors anglais ni pour l’expressivité émotionnelle.

Sources