Les Quatre Piliers

Loading diagram…

La lecture honnête du « context engineering » comme discipline récemment nommée, suivie sur r/MachineLearning, r/LocalLLaMA, et r/PromptEngineering : le cadrage en quatre piliers est utile comme checklist, et l'observation plus pointue de la communauté, c'est que le goulot dans les LLM en prod n'est presque jamais « on n'a pas donné assez de contexte au modèle » — c'est « on a donné trop de contexte, mal ordonné, et il a perdu de vue ce qui comptait ». Le papier lost-in-the-middle (Liu et al., 2023), les benchmarks long-context d'Anthropic, et la recherche LLMlingua sur la compression de prompts pointent tous vers le même pattern : plus de tokens n'est pas mieux, des tokens pertinents en premier, c'est mieux.

Là où la communauté nuance à juste titre le pitch « 200K de contexte résoud tout » : les grandes fenêtres rendent facile la paresse de retrieval. Les équipes qui obtiennent de bons résultats continuent de faire le travail dur de scoring, ranking et pruning de leur contexte au plus petit set qui permette au modèle de répondre — exactement comme si la fenêtre était de 8K. Les ablations RAG vs long-context de l'équipe Chroma sont claires : 16K curé bat 128K déversé sur la plupart des métriques aval.

Règle pragmatique des gens qui font tourner de vrais pipelines de contexte : écrivez un budget de contexte par tâche (tokens pour le système, tokens pour le retrieval, tokens pour les exemples, tokens pour l'input user), forcez-le dans le code, et quand vous le dépassez, coupez plutôt que d'upgrader vers un modèle plus grand. La discipline de couper vous force à apprendre ce dont le modèle a réellement besoin pour répondre, ce qui vaut plus que les tokens supplémentaires.

Gestion du Budget de Contexte

Techniques Avancées

Testez Votre Compréhension

Pour aller plus loin

Vous comprenez maintenant l'architecture du contexte. Ensuite, explorez un défi spécifique : le problème du Lost-in-the-Middle, pourquoi les modèles peinent avec l'information enfouie dans de longs contextes, et comment concevoir autour de ce problème.

Continuez vers Lost-in-the-Middle : RAG Avancé pour apprendre les effets de position dans le contexte.

L'Effet Lost-in-the-Middle

La lecture honnête de lost-in-the-middle trois ans après le papier original de Liu et al., suivie sur r/MachineLearning, r/LocalLLaMA, et r/LangChain : l'effet est réel, il s'est atténué avec les modèles récents mais n'a pas disparu, et toute annonce vendeur de « rappel parfait sur 1M de tokens » est du marketing tant que vous ne l'avez pas vérifié sur vos données. Le benchmark NoLiMA d'Anthropic, le benchmark RULER, et la recherche context rot de Chroma montrent tous le même tableau : les tests synthétiques needle-in-a-haystack sur-évaluent la performance réelle, parce que les vrais documents contiennent des distracteurs, des matches partiels et du bruit sémantiquement lié que les tests purs needle n'ont pas.

Là où la communauté nuance à juste titre le « long context tue le RAG » : long context et RAG sont complémentaires, pas concurrents. Les équipes avec la meilleure qualité de retrieval combinent une fenêtre de 10 à 15K de contexte bien ranké avec un modèle long-context qui porte l'historique de conversation et les instructions user. Déverser 128K de chunks non rankés dans la fenêtre fait moins bien que du RAG classique à 8K sur la plupart des vraies requêtes ; le ranking compte plus que la taille de fenêtre.

Règle pragmatique des gens qui font tourner du RAG en prod : toujours faire une passe de reranking (Cohere Rerank, Jina Reranker, ou un cross-encoder self-hosté), toujours placer vos chunks les mieux scorés au début et à la fin du contexte, et toujours mesurer le recall sur votre propre jeu d'eval — pas sur MTEB, pas sur BEIR, pas sur des slides vendeur. La courbe de sensibilité à la position est subtile et spécifique au modèle, et vous n'apprenez la vôtre qu'en testant.

Architecture RAG Avancée

Re-Classement : La Clé de la Qualité

Testez Votre Compréhension

Prochaines Étapes

Vous comprenez comment la position affecte le contexte IA. Le dernier article de ce module couvre le prompt caching et le protocole MCP, optimiser les systèmes IA pour l'efficacité en production.

Continuez vers Prompt Caching et Protocole MCP pour apprendre l'optimisation de production.

→Contextual Retrieval et RAG avancé, Comment l'enrichissement contextuel résout le "Lost in the Middle"

La partie du prompt caching que personne n'optimise (jusqu'à ce que ça morde)

Le pitch standard, c'est caching = 80-90 % d'économie sur les tokens. Vrai. Ce que la plupart des articles omettent, et ce que les ingénieurs sur r/LangChain et r/OpenAI continuent d'apprendre à la dure, c'est que le caching n'est un gain que si votre cache hit. Et qu'il hit ou non dépend de choix d'architecture qui paraissent innocents jusqu'à ce que vous les mesuriez.

Trois pièges concrets à nommer :

→L'asymétrie des TTL est réelle. Le TTL par défaut d'Anthropic est de 5 minutes, celui d'OpenAI 1 heure, Google entre les deux. Si votre trafic est en rafales avec 10+ minutes de calme, le cache Anthropic s'évaporera entre les rafales et vos "économies" disparaîtront discrètement. La doc prompt caching d'Anthropic propose désormais des tiers de cache à 1 heure à un surcoût — le calcul vaut le coup pour les charges calmes mais régulières.
→Les frontières de cache doivent coller aux fréquences de changement. Si vous mélangez l'ordre des chunks RAG entre requêtes, le cache casse. Triez les chunks récupérés par une clé stable (document ID) avant concaténation ; ce seul changement a à lui seul économisé à des équipes des factures mensuelles à cinq chiffres.
→Les system prompts dynamiques sont un tueur silencieux de cache. Injecter le timestamp courant ou un user ID dans le system prompt paraît anodin. Ça invalide le cache à chaque requête. Déplacez tout ce qui est dynamique à la fin de votre prompt, toujours.

Côté MCP, la spécification officielle Model Context Protocol est courte et lisible ; si vous écrivez encore des schémas de fonctions bespoke par vendor en 2026, vous construisez de la dette technique. L'annonce MCP d'Anthropic vaut cinq minutes pour comprendre pourquoi ce standard a gagné la course.

Prompt Caching : Arrêtez de Payer Deux Fois les Mêmes Tokens

Chaque appel API envoie votre prompt système + contexte RAG + historique de conversation. Si votre prompt système fait 2 000 tokens et reste identique pour toutes les requêtes, vous payez ces 2 000 tokens à chaque fois. Le prompt caching dit à l'API : « J'ai déjà envoyé ce préfixe, réutilisez-le. »

MCP : Le Model Context Protocol

Loading diagram…

Checklist d'Optimisation Production

Testez Votre Compréhension

Félicitations !

Vous avez complété le Module 9 et l'ensemble du curriculum IA avancé. Vous comprenez maintenant :

→Le context engineering, concevoir l'environnement informationnel pour l'IA
→Le lost-in-the-middle, les effets de position et l'optimisation
→L'optimisation de production, caching, MCP et gestion des coûts

Ce sont les compétences qui séparent les amateurs de prompts des ingénieurs IA de production.

Retournez à la vue d'ensemble du Module 9 pour revoir votre progression et explorer les prochaines étapes.

Context Engineering

Les Quatre Piliers

Gestion du Budget de Contexte

Techniques Avancées

Testez Votre Compréhension

Pour aller plus loin

L'Effet Lost-in-the-Middle

Architecture RAG Avancée

Re-Classement : La Clé de la Qualité

Testez Votre Compréhension

Prochaines Étapes

La partie du prompt caching que personne n'optimise (jusqu'à ce que ça morde)

Prompt Caching : Arrêtez de Payer Deux Fois les Mêmes Tokens

MCP : Le Model Context Protocol

Checklist d'Optimisation Production

Testez Votre Compréhension

Félicitations !

Free Generative AI Course — 80h Complete Training

Weekly AI Insights