Fondamentaux

Comment ça fonctionne — la science derrière les modèles

20 articles · 4 sous-catégories

Alignement et RLHF — comment corriger un LLM

RLHF est la méthode dominante pour rendre les LLM conformes aux valeurs humaines : pipeline en trois phases, alternatives récentes (DPO, KTO), limites théoriques et problème du jailbreaking par construction.

alignementrlhfjailbreaksécuritéconstitutional-aisycophancy

concept Architecture & fonctionnement

Architecture Transformer — le mécanisme qui a tout changé

Comment fonctionne l'attention, pourquoi tous les grands modèles de langage reposent sur la même architecture, et ce que les chercheurs débattent encore aujourd'hui.

transformerattentionself-attentionscalingarchitecture

concept Entraînement

Données synthétiques — comment les LLM apprennent de leurs propres sorties

Les LLM génèrent de plus en plus leurs propres données d'entraînement. Cette technique décuple les capacités des petits modèles — mais elle pose un risque structurel : l'effondrement progressif de la diversité.

données-synthétiquesentraînementfine-tuningmodel-collapsescaling-laws

concept Architecture & fonctionnement

Embeddings et recherche sémantique — comment les LLM comprennent le sens

Un embedding transforme un texte en coordonnées dans un espace mathématique où la proximité exprime la parenté de sens. Comprendre ce mécanisme, c'est comprendre pourquoi RAG fonctionne — et pourquoi il échoue.

embeddingsvector-storerecherche-sémantiquehnswfaiss

concept Évaluation

Benchmarks LLM — pourquoi les scores ne disent pas tout

MMLU, GSM8K, Chatbot Arena : comment mesure-t-on réellement la performance d'un modèle de langage ? État des lieux des méthodes, de leurs limites et des débats qui agitent la recherche.

benchmarksévaluationmmluchatbot-arenallm-as-judge

concept Tokens & contexte

La fenêtre de contexte — ce que c'est, pourquoi ça compte

La fenêtre de contexte détermine combien d'information un LLM peut traiter en une seule fois. Voici comment elle fonctionne et pourquoi elle est cruciale.

fenêtre-contextetokenslong-contextattentiontransformer

concept Architecture & fonctionnement

Génération d'images par IA — du bruit à l'image

Comment les modèles de diffusion construisent des images à partir de bruit aléatoire, quels acteurs dominent le secteur, et pourquoi les questions de copyright restent ouvertes.

diffusiongénération-imagesdall-emidjourneystable-diffusion

concept Architecture & fonctionnement

Histoire des LLM — cinq ruptures qui ont tout changé

Les grands modèles de langage ne sont pas apparus du jour au lendemain. Retour sur les cinq tournants scientifiques, de 2013 à aujourd'hui, qui ont rendu possible ChatGPT et ses successeurs.

transformerrlhfscaling-lawshistoiregptbert

concept Évaluation

Interprétabilité mécanistique — comprendre ce qui se passe dans un LLM

Comment les chercheurs dissèquent les modèles de langage pour comprendre leurs mécanismes internes, et ce que cela révèle sur la sécurité de l'IA.

interprétabilitémechanistic-interpretabilitysparse-autoencodercircuitssécurité-ia

concept Tokens & contexte

Fenêtre de contexte — ce que les LLM voient vraiment

Les modèles affichent des fenêtres de 128 000 ou un million de tokens. Ce que ces chiffres cachent, comment les ingénieurs ont contourné les limites physiques, et pourquoi l'information au milieu d'un long document est souvent perdue.

contexteattentionropeflash-attentionmémoiretransformer

concept Architecture & fonctionnement

Mixture of Experts — comment les grands modèles activent moins de paramètres qu'ils n'en ont

Les modèles MoE dissocient la taille totale d'un réseau de son coût de calcul réel : seule une fraction des paramètres est activée pour chaque token traité. Comprendre ce mécanisme, ses avantages et ses limites réelles.

moesparsescalingefficacitéarchitectureroutingexperts

concept Architecture & fonctionnement

Multimodalité — comment les LLM ont appris à voir et à entendre

De CLIP à GPT-4o, retour sur les mécanismes qui permettent aux grands modèles de traiter images, sons et texte au sein d'une même architecture — et sur leurs limites réelles.

multimodalvisionaudiogeneration-imagestransformer

guide Tokens & contexte

Prompt caching — réduire le coût et la latence

Le prompt caching permet de réutiliser des portions de prompt entre les appels API, réduisant jusqu'à 90% les coûts et 85% la latence.

prompt-cachingapianthropiclatencecoûtstokens

concept Architecture & fonctionnement

Chain-of-Thought — comment faire réfléchir un LLM à voix haute

Depuis 2022, une technique de prompting simple — demander au modèle de détailler ses étapes — transforme les performances des LLM sur les tâches complexes. Tour d'horizon des mécanismes, des extensions, et des limites documentées.

raisonnementchain-of-thoughtcoto1prompting

concept Entraînement

Lois d'échelle — pourquoi plus grand veut dire meilleur

Les lois d'échelle décrivent comment la performance des LLM progresse avec la taille, les données et le compute. De Kaplan à Chinchilla, puis au raisonnement à l'inférence : une idée simple avec des limites réelles.

scaling-lawschinchillaentraînementcomputeparamètres

concept Architecture & fonctionnement

Temperature et sampling — contrôler la créativité d'un LLM

La temperature et les méthodes de sampling déterminent si un LLM produit des réponses prévisibles ou surprenantes. Voici comment ça marche.

temperaturesamplingtop-ktop-pnucleus-samplinggénération

concept Tokens & contexte

Tokenisation avancée — au-delà du BPE

BPE n'est pas le seul algorithme de tokenisation. WordPiece, Unigram LM et SentencePiece ont des logiques différentes — et le choix du tokenizer a des conséquences concrètes sur l'équité entre langues.

tokenisationbpewordpiecesentencepiecemultilingue

concept Tokens & contexte

Tokens et tokenisation — comment les LLM lisent le texte

Un LLM ne lit pas des mots mais des tokens. Comprendre la tokenisation, c'est comprendre comment ces modèles traitent le langage.

tokenstokenisationbpevocabulaire

concept Entraînement

Pipeline d'entraînement des LLM — du texte brut au modèle utile

Entraîner un grand modèle de langage se déroule en trois étapes distinctes : préentraînement, ajustement supervisé et alignement par préférence. Chacune a un coût, une logique et des limites propres.

entraînementpré-entraînementfine-tuningrlhfpipeline

concept Sécurité et alignement

Alignement des LLM — pourquoi corriger l'IA ne suffit pas

RLHF est la méthode dominante pour rendre les LLM conformes aux valeurs humaines. Mais les recherches récentes montrent qu'elle amplifie certains défauts, marginalise des préférences minoritaires, et ne peut pas éliminer le jailbreaking par construction.

alignementRLHFjailbreaksécuritéConstitutional AIsycophancy