Retour aux articles
7 MIN READ

Stratégies de chunking pour le RAG : la taille compte

By Learnia Team

Stratégies de chunking pour le RAG : la taille compte

Vous avez construit un système RAG, mais l'IA continue de renvoyer des réponses non pertinentes. Le problème ne vient peut-être pas de votre modèle — mais de la façon dont vous découpez vos documents.


Qu'est-ce que le chunking ?

Le chunking est le processus de découpage de documents volumineux en morceaux plus petits pour le stockage et la récupération dans un système RAG.

Pourquoi découper

Problème :
- Votre document : 50 000 tokens
- Fenêtre de contexte : 8 000 tokens
- Modèles d'embedding : max 512 tokens

Solution :
- Découper en ~100 chunks de 500 tokens chacun
- Indexer et stocker chaque chunk
- Récupérer uniquement les chunks pertinents

Vous ne pouvez pas envoyer des documents entiers à la plupart des systèmes d'IA — le chunking les rend exploitables.


Learn AI — From Prompts to Agents

10 Free Interactive Guides120+ Hands-On Exercises100% Free

Pourquoi la stratégie de chunking est importante

Mauvais chunking

Chunk 1 : "...augmenté de 15 %. La nouvelle politique"
Chunk 2 : "exige que tous les employés soumettent les formulaires"
Chunk 3 : "avant vendredi. Les règles de sécurité imposent"

Les chunks coupent en pleine phrase. Le contexte est perdu. La récupération échoue.

Bon chunking

Chunk 1 : "Le chiffre d'affaires a augmenté de 15 % au T3 2024."
Chunk 2 : "La nouvelle politique de notes de frais exige que tous
          les employés soumettent leurs remboursements chaque vendredi."
Chunk 3 : "Les règles de sécurité imposent des inspections
          trimestrielles des équipements pour toutes les usines."

Des idées complètes. Un contexte clair. Une récupération efficace.


Le compromis du chunking

Petits chunks (100-200 tokens)

✅ Récupération précise
✅ Moins de bruit dans les résultats
❌ Risque de perte de contexte
❌ Plus de chunks à parcourir

Grands chunks (1000+ tokens)

✅ Plus de contexte préservé
✅ Moins de chunks à gérer
❌ Plus de bruit dans les résultats
❌ Peut dépasser les limites du modèle

Le juste milieu

Pour la plupart des cas d'usage : 300-500 tokens par chunk avec 50-100 tokens de chevauchement


5 stratégies de chunking

1. Chunking à taille fixe

Découpage par nombre de caractères/tokens :

Tous les 500 tokens → nouveau chunk
Chevauchement : 50 tokens entre les chunks

Simple mais brutal. Peut couper en pleine phrase.

Idéal pour : Prototypes rapides, documents uniformes

2. Chunking par phrase

Découpage aux frontières de phrases :

Remplir le chunk jusqu'à ~500 tokens
Toujours terminer sur une phrase complète

Respecte les frontières naturelles du langage.

Idéal pour : Texte général, articles, documentation

3. Chunking par paragraphe

Conserver les paragraphes ensemble :

Chaque paragraphe = un chunk (si taille raisonnable)
Combiner les petits paragraphes
Découper les très grands paragraphes

Préserve la cohérence thématique.

Idéal pour : Documents bien structurés, rapports

4. Chunking sémantique

Découpage basé sur les changements de sens :

Utiliser l'IA pour détecter les changements de sujet
Commencer un nouveau chunk quand le sujet change

Le plus précis mais plus lent/coûteux.

Idéal pour : Documents complexes, contenu mixte

5. Chunking par structure de document

Suivre la hiérarchie du document :

Respecter les titres, sections, listes
Chaque section H2 = chunk logique
Tableaux conservés intacts

Exploite l'organisation de l'auteur.

Idéal pour : Documentation technique, manuels, contenu structuré


La question du chevauchement

Pourquoi chevaucher ?

Sans chevauchement :
Chunk 1 : "...l'entreprise a réalisé des ventes record."
Chunk 2 : "Cela est principalement dû à la nouvelle gamme de produits."

Le lien entre "ventes record" et "nouvelle gamme de produits" est perdu.

Avec chevauchement (2 dernières phrases répétées) :
Chunk 1 : "...l'entreprise a réalisé des ventes record."
Chunk 2 : "...réalisé des ventes record. Cela est principalement 
          dû à la nouvelle gamme de produits."

Contexte préservé aux frontières des chunks.

Quel niveau de chevauchement ?

10-15 % de la taille du chunk est typique
Exemple : chunks de 500 tokens, 50-75 tokens de chevauchement

Trop peu : rupture de contexte
Trop : stockage gaspillé, résultats dupliqués

Taille de chunk par cas d'usage

Cas d'usageTaille recommandéePourquoi
Q&R / Faits200-300 tokensRéponses précises
Chat général400-500 tokensContexte équilibré
Résumé800-1000 tokensPlus de matière source
Juridique/Technique300-400 tokensClauses spécifiques
Contenu créatif500-800 tokensFluidité et contexte

Erreurs courantes de chunking

1. Taille unique pour tout

Utiliser la même taille de chunk pour des FAQ et des contrats juridiques ❌
Les différents types de contenu nécessitent des stratégies différentes

2. Ignorer la structure

Couper un tableau entre deux chunks ❌
Séparer un titre de son contenu ❌
Fragmenter un bloc de code ❌

3. Pas de métadonnées

Chunk sans connaître son document source ❌
Aucune idée de quelle section il provient ❌

Toujours préserver : source, page, section, date

4. Ne jamais tester

Définir la taille de chunk une fois, sans jamais évaluer ❌
La qualité de récupération varie — testez et itérez

Les métadonnées : l'arme secrète

Les bons chunks incluent du contexte :

{
  "text": "La politique de retour autorise 30 jours...",
  "metadata": {
    "source": "politiques-clients.pdf",
    "section": "Retours & Remboursements",
    "page": 12,
    "last_updated": "2024-06-15"
  }
}

Cela permet :

  • Le filtrage par source
  • La citation de pages spécifiques
  • L'affichage de la fraîcheur
  • Le débogage des problèmes de récupération

Évaluation : votre chunking fonctionne-t-il ?

Testez avec des requêtes réelles

Question : "Quelle est la politique de congés pour les nouveaux employés ?"

Vérifiez :
1. Le bon chunk est-il récupéré ?
2. Contient-il la réponse complète ?
3. Y a-t-il trop de contenu non pertinent ?

Métriques à suivre

Précision de récupération : % de chunks récupérés qui sont pertinents
Rappel de récupération : % de chunks pertinents qui sont récupérés
Qualité de réponse : le LLM produit-il des réponses correctes ?

Points clés à retenir

  1. Chunking = découper les documents pour la récupération RAG
  2. La taille compte : 300-500 tokens en général, à ajuster selon le cas d'usage
  3. La stratégie compte : fixe, par phrase, par paragraphe, sémantique, structurel
  4. Le chevauchement préserve le contexte aux frontières (10-15 %)
  5. Les métadonnées rendent les chunks traçables et filtrables

Prêt à maîtriser le RAG ?

Cet article a couvert le quoi et le pourquoi des stratégies de chunking. Mais les systèmes RAG en production nécessitent une conception de bout en bout incluant le choix des embeddings, l'optimisation de la récupération et l'intégration.

Dans notre Module 5 — RAG & Ingénierie de contexte, vous apprendrez :

  • La conception complète d'une architecture RAG
  • Les implémentations avancées de chunking
  • Les stratégies de recherche hybride
  • L'évaluation et l'optimisation de la récupération
  • Les patterns de déploiement en production

Explorer le Module 5 : RAG & Ingénierie de contexte

GO DEEPER — FREE GUIDE

Module 5 — RAG (Retrieval-Augmented Generation)

Ground AI responses in your own documents and data sources.

Newsletter

Weekly AI Insights

Tools, techniques & news — curated for AI practitioners. Free, no spam.

Free, no spam. Unsubscribe anytime.

FAQ

Quelle est la taille de chunk optimale pour le RAG ?+

Généralement, 200 à 500 tokens fonctionne le mieux. Trop petit perd le contexte ; trop grand dilue la pertinence. La taille idéale dépend de votre type de contenu, du modèle d'embedding et des patterns de requêtes. Testez pour trouver l'optimum.

Quelles stratégies de chunking existent ?+

Taille fixe (tous les N tokens), sémantique (par frontières de sens), par phrase, par paragraphe, récursif (découpage hiérarchique), et spécifique au document (respect des titres/sections).

Les chunks doivent-ils se chevaucher ?+

Oui, généralement un chevauchement de 10 à 20 %. Le chevauchement garantit que les idées coupées aux frontières de chunks sont toujours capturées. Sans chevauchement, vous risquez de manquer du contenu pertinent situé aux bords des chunks.

Comment le chunking affecte-t-il la précision du RAG ?+

Le chunking est souvent le facteur le plus déterminant pour la qualité du RAG. Un mauvais chunking signifie une récupération non pertinente ou incomplète. Un bon chunking garantit que l'IA obtient le bon contexte pour répondre avec précision.