En bref

Fine-tuning et RAG sont les deux grandes voies pour adapter un LLM à un domaine spécifique. Le premier modifie les poids du modèle — l’équivalent d’apprendre par cœur. Le second lui donne accès à une bibliothèque consultable au moment de répondre. Depuis 2023, la littérature s’est accumulée pour comparer les deux — et la conclusion n’est ni simple ni définitive.


La métaphore qui tient

Imaginez un expert qui doit répondre à des questions pointues sur le droit fiscal.

Avec le fine-tuning, vous lui faites suivre une formation intense : il lit des milliers de documents, assimile les concepts, et intègre ce savoir dans sa mémoire de long terme. Interrogé six mois plus tard sans aucun support, il peut répondre de mémoire. Le problème : si la législation change, il faut reprendre la formation depuis le début.

Avec le RAG (Retrieval-Augmented Generation), vous lui donnez accès à une bibliothèque à jour qu’il peut consulter avant de répondre. Chaque réponse s’appuie sur des documents récupérés dynamiquement. La bibliothèque peut être mise à jour sans toucher à l’expert. En revanche, la qualité de la réponse dépend de ce que la bibliothèque contient — et de la pertinence des documents récupérés.

Les deux approches sont valides. Elles ne répondent pas aux mêmes questions.

Fine-tuning : ce que ça veut vraiment dire

Le fine-tuning complet modifie l’ensemble des poids d’un modèle sur un jeu de données ciblé. En 2022, LoRA (Low-Rank Adaptation) a changé la donne : au lieu d’ajuster tous les paramètres, on entraîne des matrices de faible rang (~1/1000 des paramètres) insérées dans les couches du transformeur. Les résultats sur MMLU sont comparables au fine-tuning complet, pour une fraction du coût.

QLoRA est allé plus loin en 2023 : quantification 4-bit NF4 + LoRA. Résultat : fine-tuner un modèle de 65 milliards de paramètres sur un seul GPU de 48 Go, avec 99,3 % des performances de ChatGPT sur les benchmarks testés. Ce qui nécessitait un cluster de GPU est devenu accessible sur une seule machine haut de gamme.

Les variantes continuent de se multiplier : AdaLoRA (allocation adaptative du budget de rang), DoRA (décomposition direction/magnitude), CLoQ (quantification contrainte). L’écosystème se fragmente, ce qui complique les comparaisons directes.

Ce que le fine-tuning fait bien : adapter le style et le format de réponse, mémoriser des structures invariantes (ontologie métier, terminologie stable), améliorer les performances sur des tâches bien définies quand des données labellisées existent.

Ce qu’il fait moins bien : mettre à jour des connaissances factuelles rapidement changeantes, traiter des entités rares ou peu représentées dans les données d’entraînement.

RAG : de la version naive à l’agentic

RAG a été formalisé par Lewis et al. en 2020 (NeurIPS). Dans sa version naive, le système récupère les K passages les plus similaires à la requête et les injecte dans le prompt. Simple, mais fragile : la qualité de la réponse dépend entièrement de la qualité du retrieval.

Depuis, les architectures ont évolué en plusieurs générations :

  • Advanced RAG : réécriture de la requête avant retrieval, reranking des résultats. Un reranker bien calibré peut augmenter le MRR@5 de +59 %.
  • Hybrid search : combinaison de BM25 (lexical) et recherche vectorielle (sémantique). Complémentaires : BM25 excelle sur les termes exacts, la recherche vectorielle sur le sens.
  • Modular/Agentic RAG : boucles de retrieval itératif, auto-correction (Self-CRAG). Dans une étude, Self-CRAG atteint +0,456 de FactScore comparé à la baseline RAG standard.

Ce que RAG fait bien : connaissances à jour, documents longs, entités peu fréquentes (arXiv 2403.01432 confirme la supériorité de RAG sur les entités rares).

Ce qu’il fait moins bien : performance en latence (le retrieval double le temps jusqu’au premier token : 495 ms → 965 ms dans une mesure publiée), débit réduit (-78 % dans la même étude), dépendance à la qualité du corpus indexé.

Ce que disent les comparaisons directes

Quelques résultats empiriques publiés permettent d’affiner le raisonnement.

Injection de connaissances factuelles : Soudani et al. (EMNLP 2024) montrent que RAG surpasse le fine-tuning non supervisé de façon systématique. La nuance est critique : FT non supervisé (sur documents bruts) ≠ FT supervisé (sur paires question-réponse labellisées). Cette confusion alimente beaucoup de comparaisons mal posées dans la littérature.

Domaine agricole (arXiv 2401.08406) : FT apporte +6 points, RAG ajouté au-dessus apporte +5 points supplémentaires. La combinaison est cumulative.

Multi-hop QA (arXiv 2601.07054) : FT supervisé est meilleur que RAG — mais seulement quand les données labellisées existent. Ce n’est pas toujours le cas.

Combinaison RAG+FT : Tencent publie +7,79 % d’Exact Match en combinant les deux par rapport à RAG seul (53,76 % vs 44,20 % pour FT seul). La combinaison gagne — mais elle cumule aussi les coûts et la complexité opérationnelle.

L’arbre de décision

Voici comment aborder le choix en pratique.

Commencer par la question des données : avez-vous des paires question-réponse labellisées et suffisamment représentatives ? Si non, le fine-tuning supervisé n’est pas une option réaliste. RAG ou FT non supervisé restent possibles, mais avec des limites différentes.

Ensuite, la question de la temporalité : vos connaissances changent-elles fréquemment ? Si oui, RAG est structurellement mieux adapté — mettre à jour un index est moins coûteux que re-fine-tuner.

Puis, la question du style vs du contenu : cherchez-vous à changer le ton et le format des réponses (RAG n’aide pas beaucoup ici) ou à injecter des faits nouveaux (RAG est fait pour ça) ?

Enfin, la question des ressources : avez-vous un GPU disponible pour le fine-tuning, une infrastructure de retrieval pour le RAG, ou ni l’un ni l’autre ? QLoRA a rendu le fine-tuning plus accessible, mais RAG reste plus simple à déployer sur des bases existantes.

Si vous avez les ressources et les données, la combinaison gagne presque toujours sur les benchmarks. La vraie question est : le gain marginal justifie-t-il la complexité additionnelle ?

Les débats qui restent ouverts

Plusieurs questions ne sont pas tranchées dans la littérature.

Le fine-tuning encode-t-il vraiment la connaissance, ou surtout le style ? Les modèles fine-tunés sur des corpus médicaux produisent des réponses qui sonnent médicales, mais ils hallucinent aussi sur des faits précis. La distinction style/connaissance n’est pas triviale à opérer.

RAG amplifie-t-il les hallucinations via le bruit du retrieval ? C’est documenté. Une étude BadRAG montre que 0,04 % du corpus empoisonné suffit à rediriger 98,2 % des réponses vers le contenu malveillant. RAG n’est pas une protection contre la désinformation — il peut en être le vecteur.

Les baselines de comparaison sont-elles équitables ? Souvent non. Comparer RAG à FT non supervisé favorise RAG. Comparer RAG à FT supervisé change le résultat. Les papiers ne posent pas toujours la même question.

La combinaison est-elle toujours justifiée ? Sur les benchmarks, souvent oui. En production, la réponse dépend du coût opérationnel, de la latence acceptable, et de la complexité de maintenance que l’équipe peut absorber.


Ce qu’il faut retenir

  • RAG et fine-tuning ne sont pas concurrents sur le même registre : l’un adapte la mémoire du modèle, l’autre lui donne accès à une bibliothèque externe.
  • RAG surpasse systématiquement le fine-tuning non supervisé pour l’injection de faits — mais cette comparaison est souvent mal posée dans la littérature.
  • La combinaison RAG+FT gagne sur les benchmarks, mais cumule les coûts et la complexité : le gain marginal doit être évalué au cas par cas.
  • QLoRA a rendu le fine-tuning accessible sur hardware limité (65B sur 1 GPU 48 Go), mais RAG reste plus simple à mettre à jour.
  • Les débats non résolus (connaissance vs style, bruit retrieval, baselines équitables) doivent être gardés en tête avant de conclure à la supériorité d’une approche.

Sources