Stratégies de chunking pour le RAG : la taille compte
By Learnia Team
Stratégies de chunking pour le RAG : la taille compte
Vous avez construit un système RAG, mais l'IA continue de renvoyer des réponses non pertinentes. Le problème ne vient peut-être pas de votre modèle — mais de la façon dont vous découpez vos documents.
Qu'est-ce que le chunking ?
Le chunking est le processus de découpage de documents volumineux en morceaux plus petits pour le stockage et la récupération dans un système RAG.
Pourquoi découper
Problème :
- Votre document : 50 000 tokens
- Fenêtre de contexte : 8 000 tokens
- Modèles d'embedding : max 512 tokens
Solution :
- Découper en ~100 chunks de 500 tokens chacun
- Indexer et stocker chaque chunk
- Récupérer uniquement les chunks pertinents
Vous ne pouvez pas envoyer des documents entiers à la plupart des systèmes d'IA — le chunking les rend exploitables.
Learn AI — From Prompts to Agents
Pourquoi la stratégie de chunking est importante
Mauvais chunking
Chunk 1 : "...augmenté de 15 %. La nouvelle politique"
Chunk 2 : "exige que tous les employés soumettent les formulaires"
Chunk 3 : "avant vendredi. Les règles de sécurité imposent"
Les chunks coupent en pleine phrase. Le contexte est perdu. La récupération échoue.
Bon chunking
Chunk 1 : "Le chiffre d'affaires a augmenté de 15 % au T3 2024."
Chunk 2 : "La nouvelle politique de notes de frais exige que tous
les employés soumettent leurs remboursements chaque vendredi."
Chunk 3 : "Les règles de sécurité imposent des inspections
trimestrielles des équipements pour toutes les usines."
Des idées complètes. Un contexte clair. Une récupération efficace.
Le compromis du chunking
Petits chunks (100-200 tokens)
✅ Récupération précise
✅ Moins de bruit dans les résultats
❌ Risque de perte de contexte
❌ Plus de chunks à parcourir
Grands chunks (1000+ tokens)
✅ Plus de contexte préservé
✅ Moins de chunks à gérer
❌ Plus de bruit dans les résultats
❌ Peut dépasser les limites du modèle
Le juste milieu
Pour la plupart des cas d'usage : 300-500 tokens par chunk avec 50-100 tokens de chevauchement
5 stratégies de chunking
1. Chunking à taille fixe
Découpage par nombre de caractères/tokens :
Tous les 500 tokens → nouveau chunk
Chevauchement : 50 tokens entre les chunks
Simple mais brutal. Peut couper en pleine phrase.
Idéal pour : Prototypes rapides, documents uniformes
2. Chunking par phrase
Découpage aux frontières de phrases :
Remplir le chunk jusqu'à ~500 tokens
Toujours terminer sur une phrase complète
Respecte les frontières naturelles du langage.
Idéal pour : Texte général, articles, documentation
3. Chunking par paragraphe
Conserver les paragraphes ensemble :
Chaque paragraphe = un chunk (si taille raisonnable)
Combiner les petits paragraphes
Découper les très grands paragraphes
Préserve la cohérence thématique.
Idéal pour : Documents bien structurés, rapports
4. Chunking sémantique
Découpage basé sur les changements de sens :
Utiliser l'IA pour détecter les changements de sujet
Commencer un nouveau chunk quand le sujet change
Le plus précis mais plus lent/coûteux.
Idéal pour : Documents complexes, contenu mixte
5. Chunking par structure de document
Suivre la hiérarchie du document :
Respecter les titres, sections, listes
Chaque section H2 = chunk logique
Tableaux conservés intacts
Exploite l'organisation de l'auteur.
Idéal pour : Documentation technique, manuels, contenu structuré
La question du chevauchement
Pourquoi chevaucher ?
Sans chevauchement :
Chunk 1 : "...l'entreprise a réalisé des ventes record."
Chunk 2 : "Cela est principalement dû à la nouvelle gamme de produits."
Le lien entre "ventes record" et "nouvelle gamme de produits" est perdu.
Avec chevauchement (2 dernières phrases répétées) :
Chunk 1 : "...l'entreprise a réalisé des ventes record."
Chunk 2 : "...réalisé des ventes record. Cela est principalement
dû à la nouvelle gamme de produits."
Contexte préservé aux frontières des chunks.
Quel niveau de chevauchement ?
10-15 % de la taille du chunk est typique
Exemple : chunks de 500 tokens, 50-75 tokens de chevauchement
Trop peu : rupture de contexte
Trop : stockage gaspillé, résultats dupliqués
Taille de chunk par cas d'usage
| Cas d'usage | Taille recommandée | Pourquoi |
|---|---|---|
| Q&R / Faits | 200-300 tokens | Réponses précises |
| Chat général | 400-500 tokens | Contexte équilibré |
| Résumé | 800-1000 tokens | Plus de matière source |
| Juridique/Technique | 300-400 tokens | Clauses spécifiques |
| Contenu créatif | 500-800 tokens | Fluidité et contexte |
Erreurs courantes de chunking
1. Taille unique pour tout
Utiliser la même taille de chunk pour des FAQ et des contrats juridiques ❌
Les différents types de contenu nécessitent des stratégies différentes
2. Ignorer la structure
Couper un tableau entre deux chunks ❌
Séparer un titre de son contenu ❌
Fragmenter un bloc de code ❌
3. Pas de métadonnées
Chunk sans connaître son document source ❌
Aucune idée de quelle section il provient ❌
Toujours préserver : source, page, section, date
4. Ne jamais tester
Définir la taille de chunk une fois, sans jamais évaluer ❌
La qualité de récupération varie — testez et itérez
Les métadonnées : l'arme secrète
Les bons chunks incluent du contexte :
{
"text": "La politique de retour autorise 30 jours...",
"metadata": {
"source": "politiques-clients.pdf",
"section": "Retours & Remboursements",
"page": 12,
"last_updated": "2024-06-15"
}
}
Cela permet :
- →Le filtrage par source
- →La citation de pages spécifiques
- →L'affichage de la fraîcheur
- →Le débogage des problèmes de récupération
Évaluation : votre chunking fonctionne-t-il ?
Testez avec des requêtes réelles
Question : "Quelle est la politique de congés pour les nouveaux employés ?"
Vérifiez :
1. Le bon chunk est-il récupéré ?
2. Contient-il la réponse complète ?
3. Y a-t-il trop de contenu non pertinent ?
Métriques à suivre
Précision de récupération : % de chunks récupérés qui sont pertinents
Rappel de récupération : % de chunks pertinents qui sont récupérés
Qualité de réponse : le LLM produit-il des réponses correctes ?
Points clés à retenir
- →Chunking = découper les documents pour la récupération RAG
- →La taille compte : 300-500 tokens en général, à ajuster selon le cas d'usage
- →La stratégie compte : fixe, par phrase, par paragraphe, sémantique, structurel
- →Le chevauchement préserve le contexte aux frontières (10-15 %)
- →Les métadonnées rendent les chunks traçables et filtrables
Prêt à maîtriser le RAG ?
Cet article a couvert le quoi et le pourquoi des stratégies de chunking. Mais les systèmes RAG en production nécessitent une conception de bout en bout incluant le choix des embeddings, l'optimisation de la récupération et l'intégration.
Dans notre Module 5 — RAG & Ingénierie de contexte, vous apprendrez :
- →La conception complète d'une architecture RAG
- →Les implémentations avancées de chunking
- →Les stratégies de recherche hybride
- →L'évaluation et l'optimisation de la récupération
- →Les patterns de déploiement en production
Module 5 — RAG (Retrieval-Augmented Generation)
Ground AI responses in your own documents and data sources.
Weekly AI Insights
Tools, techniques & news — curated for AI practitioners. Free, no spam.
Free, no spam. Unsubscribe anytime.
→Related Articles
FAQ
Quelle est la taille de chunk optimale pour le RAG ?+
Généralement, 200 à 500 tokens fonctionne le mieux. Trop petit perd le contexte ; trop grand dilue la pertinence. La taille idéale dépend de votre type de contenu, du modèle d'embedding et des patterns de requêtes. Testez pour trouver l'optimum.
Quelles stratégies de chunking existent ?+
Taille fixe (tous les N tokens), sémantique (par frontières de sens), par phrase, par paragraphe, récursif (découpage hiérarchique), et spécifique au document (respect des titres/sections).
Les chunks doivent-ils se chevaucher ?+
Oui, généralement un chevauchement de 10 à 20 %. Le chevauchement garantit que les idées coupées aux frontières de chunks sont toujours capturées. Sans chevauchement, vous risquez de manquer du contenu pertinent situé aux bords des chunks.
Comment le chunking affecte-t-il la précision du RAG ?+
Le chunking est souvent le facteur le plus déterminant pour la qualité du RAG. Un mauvais chunking signifie une récupération non pertinente ou incomplète. Un bon chunking garantit que l'IA obtient le bon contexte pour répondre avec précision.