Ce que quatre ans de scaling nous ont appris sur le fonctionnement réel des LLMs

L'explication « les LLMs prédisent le prochain token » est exacte et insuffisante. Depuis 2022, la recherche sur la façon dont ces modèles fonctionnent en interne a explosé, et l'image est significativement plus étrange que le résumé du manuel. Les threads sur r/MachineLearning, r/MLScaling et la recherche d'interprétabilité sortant d'Anthropic et DeepMind ont remodelé la façon dont les praticiens pensent à ce qu'il y a à l'intérieur.

Ce que l'interprétabilité mécanistique a montré :

→Les LLMs ne font pas juste du pattern-matching, ils construisent des représentations internes. Le papier Scaling Monosemanticity d'Anthropic a identifié des millions de features interprétables dans Claude Sonnet, incluant des concepts comme « code non sûr », « conflit interne » et « erreurs de syntaxe de code ».
→Certains circuits sont bien compris ; la plupart ne le sont pas. Les induction heads, patterns d'attention et circuits arithmétiques de base ont été mappés. La vaste majorité du comportement du modèle reste une boîte noire.
→Le scaling change le comportement non-linéairement. Les capacités émergent à des seuils de taille. Chain-of-thought, in-context learning et instruction-following ont tous émergé plutôt qu'été conçus.

Ce que le cadrage « prédiction de token » rate :

→La tokenisation façonne la capacité. Les tokeniseurs BPE de style GPT splittent les nombres et le texte non-anglais de façons qui nuisent mesurablement aux performances math et multilingues. Les tokeniseurs comptent plus que le prompt engineering pour beaucoup de tâches.
→Les fenêtres de contexte ne sont pas uniformes. « 200k contexte » ne signifie pas une attention égale à travers 200k tokens. Lost-in-the-middle et récupération inégale sont des propriétés persistantes ; voir le benchmark RULER pour une mesure honnête du long-contexte.
→La température et le sampling ne sont pas cosmétiques. Ils remodelent la distribution de sortie assez pour affecter la correction sur les tâches factuelles. Les défauts sont rarement optimaux ; voir la référence API OpenAI et les docs de sampling d'Anthropic pour la spécification honnête.
→L'attention est chère et devient plus efficace. FlashAttention, sparse attention et les variantes linear-attention ont coupé substantiellement le coût d'inférence long-contexte ; l'architecture des modèles continue d'évoluer.

Ce que les praticiens devraient intérioriser :

→Les modèles sont des artefacts statistiques entraînés sur des données. Tout ce qu'ils « savent » est ce qui était dans le corpus d'entraînement, filtré à travers le feedback humain. Ils n'ont pas accès à l'information temps-réel à moins que les outils ne la fournissent.
→L'« hallucination » n'est pas un bug qui sera corrigé. C'est une propriété de la génération probabiliste. La mitigation est architecturale (RAG, vérification, incertitude), pas un patch en attente de ship.
→Les modèles de raisonnement sont différents. o-series, GPT-5 Thinking, Claude extended thinking utilisent une recherche interne au moment de l'inférence. Leur profil de coût, latence et qualité est qualitativement différent des modèles de base de 2022-2023.
→L'écart entre benchmark et production est grand. Les modèles qui acent MMLU peuvent encore échouer sur votre domaine spécifique. Benchmarkez sur votre vraie tâche avant de décider.

Le cadrage honnête : l'explication 2022 de la « prédiction de token » est toujours le meilleur point de départ pour les nouveaux venus, mais elle cache la plupart de ce qui compte vraiment pour l'usage en production. Tokenisation, patterns d'attention, sampling, effets de scaling et la différence entre modèles de raisonnement et de base comptent tous plus que le résumé de haut niveau ne le suggère. Les praticiens qui shippent des produits LLM fiables traitent le modèle comme un système empirique à mesurer, pas une abstraction propre.

Les Tokens : L'ADN du Langage IA

Test de compréhension

Et ensuite ?

Vous comprenez la mécanique des LLMs. L'article suivant vous enseigne comment piloter cette mécanique à travers les techniques de prompt engineering.

Continuez avec Techniques de Prompt Engineering pour maîtriser le pilotage des LLMs.

Les Techniques Fondamentales

La lecture honnête de zero-shot vs. few-shot vs. chain-of-thought en 2026, suivie sur r/LocalLLaMA, r/PromptEngineering, et r/MachineLearning : la recherche qui fonde ces techniques est solide, mais l'expérience vécue de la communauté a mis à jour le classement des manuels. Le papier original few-shot (Brown et al., 2020) a établi que les exemples améliorent drastiquement l'in-context learning, le papier chain-of-thought (Wei et al., 2022) a montré que le raisonnement intermédiaire aide, et le guide prompting d'Anthropic reste la référence pratique la plus propre. Ce qui a changé : avec les modèles classe GPT-5 et Claude-Opus, l'écart entre zero-shot et few-shot s'est réduit sur beaucoup de tâches, et l'écart entre zero-shot et chain-of-thought s'est réduit sur les tâches de raisonnement parce que le raisonnement est de plus en plus intégré par défaut.

Là où la communauté nuance à juste titre la doctrine « toujours few-shot » : les exemples coûtent des tokens et risquent d'ancrer la sortie trop étroitement au pattern que vous avez montré. Si votre tâche est nouvelle ou créative, le zero-shot bat souvent parce que le modèle n'est pas contraint par vos exemples. Si elle exige de la cohérence (ton, format, structure) sur beaucoup d'exécutions, le few-shot gagne. Le test est simple : écrivez un bon exemple, lancez les deux variantes, comparez.

Règle pragmatique des praticiens qui ont dépassé le hype : choisissez la technique selon le mode d'échec. « Mauvais format » → few-shot avec exemple de format. « Mauvais raisonnement » → chain-of-thought. « Mauvais style » → few-shot avec exemples de style. « Trop générique » → zero-shot avec spécification de rôle et contraintes plus fortes. La technique est l'outil ; le mode d'échec vous dit lequel.

La Structure d'un Bon Prompt

Test de compréhension

Continuez votre apprentissage

Passez à la pratique ! L'atelier suivant vous guide pour construire votre propre Prompt Book, une collection de prompts optimisés et réutilisables.

Continuez avec Construire votre Prompt Book pour mettre ces techniques en pratique.

→Le processus de prompt engineering, Méthode systématique en 6 étapes pour optimiser vos prompts

Pourquoi un Prompt Book ?

Structure d'un Prompt Book

Test de compréhension

Pour aller plus loin

Vous avez votre Prompt Book ! Dans le prochain module, découvrez comment obtenir des sorties structurées de l'IA, JSON, tableaux, formats exploitables par des programmes.

Continuez avec Pourquoi les Sorties Structurées Comptent pour aller au-delà du texte libre.

LLM Fundamentals

Ce que quatre ans de scaling nous ont appris sur le fonctionnement réel des LLMs

Les Tokens : L'ADN du Langage IA

Test de compréhension

Et ensuite ?

Les Techniques Fondamentales

La Structure d'un Bon Prompt

Test de compréhension

Continuez votre apprentissage

Pourquoi un Prompt Book ?

Structure d'un Prompt Book

Test de compréhension

Pour aller plus loin

Structured AI Outputs

Weekly AI Insights