Retour aux articles
9 MIN READ

Comment fonctionnent les LLMs : Tokens, Contexte et

By Dorian Laurenceau

📅 Dernière révision : 24 avril 2026. Mise à jour avec les retours et observations d'avril 2026.

Comment fonctionnent les LLMs : La Mécanique sous le Capot

Quand vous posez une question à ChatGPT, que se passe-t-il exactement ? Le modèle ne "comprend" pas votre question. Il convertit vos mots en nombres (tokens), calcule des probabilités, et prédit le token suivant le plus probable. Ce processus, répété des centaines de fois, produit une réponse qui SEMBLE intelligente. Comprendre cette mécanique change fondamentalement la façon dont vous interagissez avec l'IA.

Ce que quatre ans de scaling nous ont appris sur le fonctionnement réel des LLMs

L'explication « les LLMs prédisent le prochain token » est exacte et insuffisante. Depuis 2022, la recherche sur la façon dont ces modèles fonctionnent en interne a explosé, et l'image est significativement plus étrange que le résumé du manuel. Les threads sur r/MachineLearning, r/MLScaling et la recherche d'interprétabilité sortant d'Anthropic et DeepMind ont remodelé la façon dont les praticiens pensent à ce qu'il y a à l'intérieur.

Ce que l'interprétabilité mécanistique a montré :

  • Les LLMs ne font pas juste du pattern-matching, ils construisent des représentations internes. Le papier Scaling Monosemanticity d'Anthropic a identifié des millions de features interprétables dans Claude Sonnet, incluant des concepts comme « code non sûr », « conflit interne » et « erreurs de syntaxe de code ».
  • Certains circuits sont bien compris ; la plupart ne le sont pas. Les induction heads, patterns d'attention et circuits arithmétiques de base ont été mappés. La vaste majorité du comportement du modèle reste une boîte noire.
  • Le scaling change le comportement non-linéairement. Les capacités émergent à des seuils de taille. Chain-of-thought, in-context learning et instruction-following ont tous émergé plutôt qu'été conçus.

Ce que le cadrage « prédiction de token » rate :

  • La tokenisation façonne la capacité. Les tokeniseurs BPE de style GPT splittent les nombres et le texte non-anglais de façons qui nuisent mesurablement aux performances math et multilingues. Les tokeniseurs comptent plus que le prompt engineering pour beaucoup de tâches.
  • Les fenêtres de contexte ne sont pas uniformes. « 200k contexte » ne signifie pas une attention égale à travers 200k tokens. Lost-in-the-middle et récupération inégale sont des propriétés persistantes ; voir le benchmark RULER pour une mesure honnête du long-contexte.
  • La température et le sampling ne sont pas cosmétiques. Ils remodelent la distribution de sortie assez pour affecter la correction sur les tâches factuelles. Les défauts sont rarement optimaux ; voir la référence API OpenAI et les docs de sampling d'Anthropic pour la spécification honnête.
  • L'attention est chère et devient plus efficace. FlashAttention, sparse attention et les variantes linear-attention ont coupé substantiellement le coût d'inférence long-contexte ; l'architecture des modèles continue d'évoluer.

Ce que les praticiens devraient intérioriser :

  • Les modèles sont des artefacts statistiques entraînés sur des données. Tout ce qu'ils « savent » est ce qui était dans le corpus d'entraînement, filtré à travers le feedback humain. Ils n'ont pas accès à l'information temps-réel à moins que les outils ne la fournissent.
  • L'« hallucination » n'est pas un bug qui sera corrigé. C'est une propriété de la génération probabiliste. La mitigation est architecturale (RAG, vérification, incertitude), pas un patch en attente de ship.
  • Les modèles de raisonnement sont différents. o-series, GPT-5 Thinking, Claude extended thinking utilisent une recherche interne au moment de l'inférence. Leur profil de coût, latence et qualité est qualitativement différent des modèles de base de 2022-2023.
  • L'écart entre benchmark et production est grand. Les modèles qui acent MMLU peuvent encore échouer sur votre domaine spécifique. Benchmarkez sur votre vraie tâche avant de décider.

Le cadrage honnête : l'explication 2022 de la « prédiction de token » est toujours le meilleur point de départ pour les nouveaux venus, mais elle cache la plupart de ce qui compte vraiment pour l'usage en production. Tokenisation, patterns d'attention, sampling, effets de scaling et la différence entre modèles de raisonnement et de base comptent tous plus que le résumé de haut niveau ne le suggère. Les praticiens qui shippent des produits LLM fiables traitent le modèle comme un système empirique à mesurer, pas une abstraction propre.

Les Tokens : L'ADN du Langage IA

Test de compréhension

Et ensuite ?

Vous comprenez la mécanique des LLMs. L'article suivant vous enseigne comment piloter cette mécanique à travers les techniques de prompt engineering.


Continuez avec Techniques de Prompt Engineering pour maîtriser le pilotage des LLMs.

GO DEEPER — FREE GUIDE

Module 1 — LLM Anatomy & Prompt Structure

Understand how LLMs work and construct clear, reusable prompts.

D

Dorian Laurenceau

Full-Stack Developer & Learning Designer

Full-stack web developer and learning designer. I spent 4 years as a freelance full-stack developer and 4 years teaching React, JavaScript, HTML/CSS and WordPress to adult learners. Today I design learning paths in web development and AI, grounded in learning science. I founded learn-prompting.fr to make AI practical and accessible, and built the Bluff app to gamify political transparency.

Prompt EngineeringLLMsFull-Stack DevelopmentLearning DesignReact
Published: March 9, 2026Updated: April 24, 2026
Newsletter

Weekly AI Insights

Tools, techniques & news — curated for AI practitioners. Free, no spam.

Free, no spam. Unsubscribe anytime.

FAQ

Que vais-je apprendre dans ce guide sur les LLMs ?+

Comprenez la mécanique des grands modèles de langage. Apprenez ce que sont les tokens, comment fonctionne la fenêtre de contexte, et pourquoi les LLMs semblent comprendre le langage.