Agents LLM — comment un modèle de langage passe à l'action

Un agent LLM ne se contente pas de répondre : il planifie, utilise des outils et s'autocorrige. Explication des architectures qui rendent cela possible, et des limites que les benchmarks révèlent.

En bref

Un grand modèle de langage, tel qu’on l’utilise dans un chatbot, produit une réponse à partir d’une entrée — puis s’arrête. Un agent LLM va plus loin : il décompose un objectif en étapes, appelle des outils externes (moteurs de recherche, APIs, interpréteurs de code), observe les résultats, et ajuste son plan en conséquence. Ce passage du modèle passif à l’agent actif repose sur trois briques techniques — appel d’outils, planification et coordination entre agents — qui se sont constituées entre 2022 et 2025. Les benchmarks révèlent des capacités réelles mais aussi un écart considérable avec les performances humaines sur des tâches réalistes.

De la réponse à l’action : l’appel d’outils

Jusqu’en 2022, les LLM produisent du texte sans pouvoir interagir avec le monde extérieur. L’article Toolformer (Schick et al., Meta AI, 2023) change la donne. L’idée est simple : un modèle peut apprendre, à partir d’exemples, quand appeler un outil, comment formuler l’appel, et comment intégrer la réponse dans son raisonnement. Les outils testés sont basiques — calculatrice, moteur de recherche, traduction — mais la démonstration est décisive : un modèle de 6,7 milliards de paramètres avec accès aux outils surpasse parfois des modèles bien plus grands sans outils.

OpenAI, Google et Anthropic intègrent ce paradigme directement dans leurs APIs dès 2023-2024. La mécanique est la suivante : le modèle génère un appel de fonction structuré (un objet JSON décrivant l’outil à appeler et ses paramètres), le système l’intercepte, exécute l’appel réel, et renvoie le résultat au modèle. C’est aujourd’hui le standard industriel, désigné sous le terme function calling.

En 2025, l’effort se déplace vers l’interopérabilité : le Model Context Protocol (MCP) développé par Anthropic standardise la façon dont les outils sont décrits et invoqués, indépendamment du modèle qui les utilise.

Penser pour agir : le cycle ReAct

Savoir appeler un outil ne suffit pas pour accomplir une tâche complexe. Il faut aussi planifier, c’est-à-dire décider de l’enchaînement des actions. C’est l’objet de ReAct (Yao et al., 2022, publié à ICLR 2023), l’une des architectures les plus citées du domaine.

Le principe de ReAct est d’entrelacer raisonnement et action dans la même séquence de tokens. À chaque étape, l’agent produit une trace de pensée (ce qu’il comprend de la situation), décide d’une action (appeler un outil, effectuer une requête), puis observe la réponse de l’environnement. Ce cycle — Pensée / Action / Observation — permet à l’agent de rester cohérent sur plusieurs dizaines d’étapes tout en adaptant son plan à chaque retour.

Sur des tâches de navigation en texte et de navigation e-commerce, ReAct dépasse les approches d’imitation et d’apprentissage par renforcement de respectivement +34 % et +10 % en taux de succès.

Reflexion (Shinn et al., NeurIPS 2023) ajoute une couche d’autocritique : après un épisode, l’agent génère une réflexion verbale sur ses erreurs, qu’il stocke en mémoire pour guider ses prochains essais. Sans modifier ses poids, un modèle équipé de Reflexion atteint 91 % de réussite sur HumanEval (un benchmark de génération de code), contre 80 % pour GPT-4 sans ce mécanisme à l’époque.

LATS (Language Agent Tree Search, Zhou et al., 2023) pousse plus loin en explorant plusieurs trajectoires en parallèle, via une recherche arborescente inspirée de Monte Carlo. Le résultat : 92,7 % sur HumanEval. Le coût : un budget de calcul multiplié par 3 à 10× par rapport à ReAct. Ce compromis performance/coût est l’un des débats centraux du domaine.

Coordonner plusieurs agents

Certaines tâches gagnent à être distribuées entre agents spécialisés. Deux frameworks ont structuré le domaine.

AutoGen (Wu et al., Microsoft Research, 2023) conceptualise les agents comme des entités conversationnelles asynchrones. Plusieurs agents — assistant, exécuteur de code, orchestrateur — peuvent dialoguer et co-résoudre une tâche. AutoGen a introduit une terminologie qui reste en usage aujourd’hui.

MetaGPT (Hong et al., ICLR 2024) adopte une métaphore organisationnelle : chaque agent incarne un rôle (chef de produit, architecte, ingénieur, QA) et suit des procédures standard encodées dans ses instructions. Les agents échangent des artefacts structurés (spécifications, diagrammes) plutôt que du texte libre, ce qui réduit les ambiguïtés à l’interface entre agents.

Des analyses comparatives récentes (2025) montrent que les frameworks divergent sur leurs priorités : LangGraph favorise la traçabilité et la mémoire persistante ; CrewAI favorise la coordination par rôles ; AutoGen favorise la flexibilité conversationnelle. Il n’existe pas de solution universelle — le choix dépend des contraintes du cas d’usage.

Ce que les benchmarks révèlent

Pour mesurer les progrès, le domaine a développé des évaluations spécifiques aux agents — différentes des benchmarks classiques qui testent des compétences statiques.

SWE-bench (Jimenez et al., ICLR 2024) soumet les agents à 2 294 issues GitHub réelles. L’agent doit produire un patch qui passe les tests de régression. En 2024, les meilleurs systèmes résolvent environ 12 % des instances ; en 2025, les meilleurs dépassent 50 % sur la version vérifiée du benchmark.

WebArena (Zhou et al., ICLR 2024) propose 812 tâches de navigation sur des sites web fonctionnels. Le meilleur agent GPT-4 atteint 14,4 % de réussite ; un humain atteint 78,2 %.

GAIA (Mialon et al., Meta/HuggingFace, ICLR 2024) pose des questions de la vie réelle nécessitant raisonnement, navigation web et appels d’outils combinés. Les humains atteignent 92 % ; GPT-4 équipé de plugins n’atteint que 15 %. Cet écart de 77 points résume le fossé entre les capacités perçues des agents et leur performance réelle sur des tâches composites.

Ces chiffres doivent cependant être lus avec précaution. Une recherche de 2025 (Kapoor et al., arXiv 2507.02825) identifie des problèmes de validité sérieux dans les benchmarks agents : des agents qui ne font rien réussissent 38 % des tâches de certains benchmarks, faute de critères d’évaluation robustes. Les juges automatiques commettent des erreurs arithmétiques qui faussent les classements. Ces biais peuvent distordre les mesures de performance de 100 % en termes relatifs.

Les risques concrets

Le paradigme agentique introduit des risques absents des modèles conversationnels classiques.

La fragilité en cascade est le problème le plus documenté. Une erreur à l’étape N se propage aux étapes suivantes. Sur des tâches de 20 à 50 étapes, le taux d’erreur composé peut rendre l’agent inutilisable. Des incidents réels en 2025 illustrent le coût concret : un agent de développement supprimant une base de données de production, un agent commercial effectuant un achat non autorisé.

Le prompt injection est une menace propre aux agents. Lorsqu’un agent traite des données externes — emails, pages web, fichiers — ces données peuvent contenir des instructions malveillantes qui détournent son comportement. Dans un système multi-agents, une instruction injectée peut se propager d’un agent à l’autre (Cohen et al., arXiv 2410.07283, 2024). Un exploit documenté contre Microsoft Copilot en 2025 a démontré cette attaque en conditions réelles.

Une analyse de l’AI Agent Index 2025 (arXiv 2602.17753) révèle que la délégation de la sécurité aux utilisateurs finaux est la pratique dominante parmi les systèmes déployés — une approche que les chercheurs jugent insuffisante.

Ce qu’il faut retenir

Un agent LLM combine appel d’outils, planification en plusieurs étapes et, dans les architectures avancées, coordination entre agents spécialisés.
Le cycle ReAct (Pensée / Action / Observation) reste l’architecture de référence pour la planification agentique ; les variantes comme Reflexion et LATS améliorent les performances au prix d’un coût computationnel plus élevé.
Les benchmarks montrent des progrès rapides (SWE-bench : de 12 % à 50 % en un an) mais aussi un écart persistant avec les humains sur les tâches réalistes — GAIA : 15 % vs 92 %.
Les benchmarks eux-mêmes sont contestés : des problèmes de validité documentés en 2025 suggèrent que certains scores surestiment les capacités réelles.
La fragilité en cascade et le prompt injection sont les deux risques les plus concrets des agents déployés en production.