Llama — l'open source selon Meta

En bref

En février 2023, Meta publie Llama 1. L’objectif affiché est modeste : mettre à disposition des chercheurs un modèle de langage de qualité pour la communauté académique. Quelques jours après sa sortie, les poids du modèle fuient sur internet. Ce qui aurait pu être un incident de sécurité devient le déclencheur d’une révolution silencieuse : des milliers de développeurs commencent à expérimenter, à affiner, à déployer Llama sur leurs propres machines.

Depuis, Meta a méthodiquement élargi la famille. Chaque génération a repoussé les limites de ce qu’un modèle accessible peut faire : contexte plus long, capacités multimodales, architecture plus efficace. Avec Llama 4, sorti en avril 2025, Meta franchit l’étape du milliard de tokens de contexte et adopte une architecture Mixture of Experts. Llama n’est plus simplement un modèle de recherche — c’est devenu l’infrastructure sous-jacente d’une large partie de l’IA open weights mondiale.

Fiche d’identité

Champ	Valeur
Organisation	Meta AI
Première version	Février 2023 (Llama 1)
Type	Famille de modèles de langage (texte, puis multimodal)
Accès	Open weights (téléchargement libre sous licence Meta)
Tailles disponibles	De 1B à ~400B paramètres selon la version

Historique

Llama 1 (février 2023) marque la première publication de Meta dans l’espace des grands modèles de langage. Disponible en 7B, 13B, 33B et 65B paramètres, il est entraîné exclusivement sur des données publiques — CommonCrawl, GitHub, Wikipedia, ArXiv. Sa licence est limitée à la recherche, mais sa fuite rapide en fait le modèle de référence pour la communauté open source naissante.

Llama 2 (juillet 2023) introduit deux changements décisifs : une licence commerciale ouverte sous conditions, et la première documentation publique d’un processus RLHF (Reinforcement Learning from Human Feedback) de la part de Meta. Le volume de données d’entraînement passe à 2 000 milliards de tokens. Les variantes Chat (instruct-tuned) apparaissent, avec des tailles allant jusqu’à 70B.

Llama 3 (avril 2024) représente un saut qualitatif. L’entraînement porte sur 15 000 milliards de tokens — sept fois plus que Llama 2. Le support du code est multiplié par quatre. L’architecture adopte le Grouped-Query Attention (GQA) sur tous les modèles, ce qui améliore l’efficacité à l’inférence. Les tailles initiales sont 8B et 70B, avant que Llama 3.1 n’ajoute en juillet 2024 un modèle phare de 405B paramètres — alors le plus grand modèle open weights disponible — avec une fenêtre de contexte étendue à 128 000 tokens.

Llama 3.2 (septembre 2024) marque l’entrée de la famille dans le multimodal. Deux variantes vision (11B et 90B) traitent images et texte conjointement, entraînées sur six milliards de paires image-texte. Deux variantes texte légères (1B et 3B) ciblent les appareils mobiles et les déploiements edge avec un contexte de 128K tokens.

Llama 3.3 (décembre 2024) est un modèle unique de 70B dont l’objectif est l’efficacité : ses performances s’approchent du Llama 3.1 405B selon Meta, pour un coût d’inférence environ cinq fois inférieur au Llama 3.1 70B.

Llama 4 (avril 2025) abandonne l’architecture dense au profit du Mixture of Experts. Scout (17B paramètres actifs sur 109B total, 16 experts) affiche une fenêtre de contexte de 10 millions de tokens — un record pour l’open weights au moment de sa sortie — et peut tourner sur un seul GPU H100 avec quantization. Maverick (17B actifs sur ~400B total, 128 experts) cible les performances maximales. Un troisième modèle, Behemoth (~2 000B total), était annoncé mais pas encore publié au moment de la sortie.

Capacités

Benchmarks (Llama 4, avril 2025). Sur MMMU (raisonnement multimodal), Maverick atteint 73,4 % contre 69,1 % pour GPT-4o et 71,7 % pour Gemini 2.0 Flash. Sur MathVista, Maverick marque 73,7 % contre 63,8 % pour GPT-4o. Scout obtient 74,3 % sur MMLU Pro et 57,2 % sur GPQA Diamond. Ces chiffres sont publiés par Meta et n’ont pas fait l’objet d’une validation indépendante systématique au moment de la sortie.

Contexte long. La fenêtre de 10 millions de tokens de Scout représente un changement de paradigme pour l’open weights : il devient possible d’injecter des corpus entiers en contexte sans recourir au RAG.

Écosystème communautaire. Llama doit une partie de sa pertinence pratique à l’infrastructure construite autour de lui. llama.cpp (ggml-org) permet l’inférence en C/C++ sur CPU et GPU, devenu le standard de facto pour l’exécution locale. Le format GGUF (GPT-Generated Unified Format) standardise la distribution de modèles quantizés, avec des niveaux de 1,5 à 8 bits. Ollama simplifie le déploiement local en une commande. Hugging Face centralise la distribution et les outils de conversion. Pour le fine-tuning, LoRA et QLoRA permettent d’adapter un modèle à une tâche spécifique avec des ressources limitées ; des frameworks comme Unsloth et LlamaFactory ont industrialisé ce pipeline.

Limites connues

La distinction open weights / open source n’est pas cosmétique. Un modèle “open source” au sens de l’Open Source Initiative (OSI) implique la disponibilité du code d’entraînement, des données, et une licence sans restriction d’usage. Llama n’est rien de tout cela : seuls les poids sont publiés, les données d’entraînement ne sont pas divulguées, et la licence impose des conditions. L’OSI a explicitement demandé à Meta de cesser d’utiliser le terme “open source” pour Llama 2 et 3.

La clause des 700 millions d’utilisateurs est la restriction la plus visible : toute entité dépassant ce seuil d’utilisateurs actifs mensuels doit obtenir une licence commerciale séparée auprès de Meta. Cette clause cible directement les grands concurrents (Google, Microsoft) et signale que la “générosité” de Meta est stratégiquement délimitée.

L’alignement est moins documenté que chez les modèles propriétaires. Le RLHF de Meta est décrit dans les papiers techniques mais reste moins intensif que celui de modèles comme GPT-4 ou Claude — aucune comparaison quantitative n’a été publiée. Les versions base (non-instruct) sont délibérément non filtrées, ce qui est utile pour la recherche mais implique une responsabilité accrue pour les déployeurs.

Les hallucinations restent un problème non résolu. Llama 4 utilise DPO (Direct Preference Optimization) pour améliorer la précision des réponses, mais Meta n’a pas publié de taux d’hallucination mesurés. Les comparaisons directes avec d’autres modèles sont difficiles à standardiser en raison de métriques hétérogènes entre les sources.

Les benchmarks sont auto-rapportés. Les chiffres de performances publiés lors des lancements Llama sont produits par Meta. L’absence d’évaluation indépendante systématique au moment des sorties rend difficile la comparaison objective avec des modèles concurrents.

Ce qu’il faut retenir

Llama a changé la structure de l’écosystème des LLM : avant lui, les modèles performants étaient l’apanage exclusif des grands laboratoires avec accès API payant.
Chaque génération rapproche les performances open weights des modèles propriétaires, tout en réduisant les coûts d’inférence.
Llama 4 Scout, tournant sur un seul GPU H100 avec 10 millions de tokens de contexte, illustre jusqu’où cette dynamique peut aller.
Ce que Meta publie sont des open weights, pas de l’open source : les données d’entraînement restent opaques, le code d’entraînement n’est pas publié, et la licence est conditionnelle.
Cette distinction détermine ce que la communauté peut réellement vérifier, reproduire et modifier.