Retour aux articles
6 MIN READ

Fenêtres de contexte : Pourquoi les limites de tokens comptent

By Learnia Team

Fenêtres de contexte : Pourquoi les limites de tokens comptent

Avez-vous déjà eu une IA qui « oublie » quelque chose que vous lui avez dit il y a quelques messages ? C'est la fenêtre de contexte en action — et la comprendre change votre façon d'interagir avec l'IA.


Qu'est-ce qu'une fenêtre de contexte ?

Une fenêtre de contexte est la quantité maximale de texte qu'un modèle d'IA peut « voir » en une seule fois. Considérez-la comme la mémoire de travail de l'IA — tout ce qu'elle peut prendre en compte pour générer une réponse.

L'analogie de la fenêtre de lecture

Imaginez que vous lisez un livre à travers une petite fenêtre qui ne montre que 2 pages à la fois :

[Pages 1-2 visibles] → Vous pouvez faire référence à ce qui est dans le champ de vision
[Page 3+] → Vous avez « oublié » le contenu précédent

C'est exactement ainsi que fonctionnent les LLM. Ils ne peuvent traiter que ce qui tient dans leur fenêtre.


Learn AI — From Prompts to Agents

10 Free Interactive Guides120+ Hands-On Exercises100% Free

Tailles des fenêtres de contexte (2025)

Les différents modèles ont des capacités très différentes :

ModèleFenêtre de contexteNombre de mots approximatif
GPT-3.54K tokens~3 000 mots
GPT-48K-128K tokens6K-96K mots
GPT-4 Turbo128K tokens~96 000 mots
Claude 3.5 Sonnet200K tokens~150 000 mots
Gemini 1.5 Pro1M+ tokens~750 000 mots

Note : 1 token ≈ 0,75 mot en anglais, ~0,5 mot en français


Qu'est-ce qui consomme votre contexte ?

Tout dans la conversation utilise des tokens :

1. Instructions système

"Tu es un assistant utile spécialisé dans les documents juridiques..."
→ Utilise des tokens de votre fenêtre

2. Historique de conversation

Utilisateur : [Question précédente] → Tokens
IA : [Réponse précédente] → Tokens
Utilisateur : [Question actuelle] → Tokens

3. Documents récupérés (RAG)

[Fragment de document 1] → Tokens
[Fragment de document 2] → Tokens
[Fragment de document 3] → Tokens

4. La réponse en cours de génération

La réponse de l'IA → Utilise aussi des tokens !

Point clé : Une fenêtre de contexte de 128K ne signifie pas 128K pour vos documents. Les prompts système, l'historique et la réponse se disputent tous l'espace.


Pourquoi les fenêtres de contexte sont importantes

1. Perte de mémoire

Quand les conversations dépassent la fenêtre, les premiers messages sont « éjectés » :

Message 1 : "Je m'appelle Alex"    ← Finit par être oublié
Message 2 : "Je travaille aux RH"  ← Finit par être oublié
...
Message 50 : "Comment je m'appelle ?"
IA : "Je n'ai pas cette information" 😕

2. Limitations pour les documents

Vous ne pouvez pas simplement coller un livre entier et poser des questions :

❌ "Voici un manuel de 500 pages. Résumez-le."
   → Dépasse la fenêtre de contexte
   
✅ "Voici les sections pertinentes. Résumez-les."
   → Tient dans le contexte

3. Implications sur les coûts

Plus de tokens = coûts d'API plus élevés :

Entrée : 1 000 tokens × 0,01 $/1K = 0,01 $
Entrée : 100 000 tokens × 0,01 $/1K = 1,00 $

La même question peut coûter 100× plus cher selon la taille du contexte.


Stratégies pour travailler dans les limites

1. Résumez l'historique

Au lieu de garder l'intégralité de l'historique de conversation :

❌ Conserver les 50 messages mot pour mot

✅ Résumer : "La discussion précédente portait sur :
   - L'utilisateur est Alex des RH
   - Il cherche des informations sur la politique de congés
   - Il a déjà consulté la section 3.2"

2. Découpez les documents intelligemment

Divisez les documents volumineux en fragments récupérables :

Document complet : 50 000 tokens (ne tient pas)
↓
Fragment 1 : 500 tokens (section pertinente)
Fragment 2 : 500 tokens (section pertinente)
↓
Ne récupérez que ce qui est nécessaire

3. Utilisez des prompts ciblés

Posez des questions spécifiques plutôt que larges :

❌ "Dites-moi tout sur ce contrat"

✅ "Quelles sont les clauses de résiliation dans la section 4 ?"

4. Exploitez les prompts système avec discernement

Gardez les instructions système concises mais complètes :

❌ Prompt système de 2 000 tokens avec des exemples
   → Moins de place pour le contenu réel

✅ Prompt système ciblé de 200 tokens
   → Plus de place pour les documents/l'historique

Le compromis des fenêtres de contexte

Grande fenêtrePetite fenêtre
✅ Plus de mémoire✅ Réponses plus rapides
✅ Plus de documents✅ Coût plus faible
❌ Latence plus élevée❌ Plus d'oublis
❌ Coût plus élevé❌ Plus difficile à gérer

Il n'y a pas de taille « idéale » — cela dépend de votre cas d'usage.


Erreurs courantes

1. Supposer une mémoire illimitée

"Mais je vous ai dit mes préférences il y a 20 messages !"
→ C'est probablement en dehors de la fenêtre maintenant

2. Ignorer les coûts en tokens

Envoyer 100K tokens pour une question simple
→ Cher et lent

3. Ne pas anticiper la montée en charge

Le système fonctionne bien avec 10 documents
→ Ne fonctionne plus avec 1 000 documents

Points clés à retenir

  1. La fenêtre de contexte = la limite de mémoire de travail de l'IA
  2. Tout se dispute l'espace : prompts, historique, documents, sortie
  3. Des fenêtres plus grandes (128K+) existent mais impliquent des compromis de coût et de vitesse
  4. Stratégies intelligentes : résumer, découper, cibler
  5. Comprendre les limites vous aide à concevoir de meilleures interactions avec l'IA

Prêt à maîtriser le contexte ?

Cet article a couvert le quoi et le pourquoi des fenêtres de contexte. Mais les systèmes d'IA en production nécessitent des stratégies sophistiquées de gestion du contexte.

Dans notre Module 9 — Context Engineering, vous apprendrez :

  • Le framework WRITE, SELECT, COMPRESS, ISOLATE
  • La gestion dynamique des fenêtres de contexte
  • Les stratégies de découpage pour les systèmes RAG
  • Les schémas de persistance de la mémoire
  • Les techniques d'optimisation en production

Découvrir le Module 9 : Context Engineering

GO DEEPER — FREE GUIDE

Module 9 — Context Engineering

Master the art of managing context windows for optimal results.

Newsletter

Weekly AI Insights

Tools, techniques & news — curated for AI practitioners. Free, no spam.

Free, no spam. Unsubscribe anytime.

FAQ

Qu'est-ce qu'une fenêtre de contexte en IA ?+

Une fenêtre de contexte est la quantité maximale de texte (mesurée en tokens) qu'un modèle d'IA peut traiter en une seule fois. Elle inclut votre prompt, l'historique de conversation et la réponse du modèle.

Pourquoi l'IA « oublie-t-elle » le début de la conversation ?+

Lorsque la conversation dépasse la fenêtre de contexte, les messages les plus anciens sont supprimés. L'IA n'a pas de mémoire entre les sessions — elle ne voit que ce qui tient dans la fenêtre actuelle.

Quelle est la taille des fenêtres de contexte en 2026 ?+

GPT-4 Turbo : 128K tokens. Claude 3 : 200K. Gemini 1.5 : 1 à 2 millions de tokens. Un token correspond à environ 4 caractères en anglais, donc 100K tokens représentent environ 75 000 mots.

Comment travailler dans les limites de contexte ?+

Résumez les conversations précédentes, utilisez le RAG pour récupérer uniquement les informations pertinentes, découpez les documents volumineux et supprimez le contexte inutile. Placez les informations importantes au début ou à la fin de votre prompt.