LLM Routing : choisir le bon modèle pour chaque tâche
By Dorian Laurenceau
📅 Dernière révision : 24 avril 2026. Mise à jour avec les retours et observations d'avril 2026.
Faut-il envoyer chaque question à GPT-4 ? C'est comme prendre une voiture de sport pour aller chercher le pain, excessif pour les tâches simples et inutilement coûteux. Le LLM routing associe les questions au bon modèle, en optimisant coût et vitesse sans sacrifier la qualité.
<!-- manual-insight -->
LLM routing : ce que les équipes de production font vraiment vs la version du blog post
Le LLM routing est devenu l'une des techniques d'optimisation de coût les plus discutées dans les applications LLM en production. Les threads sur r/LangChain, r/LocalLLaMA et r/MachineLearning reflètent un écart entre la simplicité du concept et la réalité de production.
À quoi ressemble vraiment le routing en production :
- →Cascades étagées. Modèle le moins cher d'abord ; escalader vers des modèles plus capables si le modèle pas cher flague l'incertitude ou si la sortie échoue à la validation. Déployé à l'échelle par la recherche RouteLLM d'Anyscale et des projets similaires.
- →Routing basé sur la tâche. Requêtes de code vers Claude/GPT-5 Codex ; requêtes d'écriture vers Claude Opus ; requêtes heavy-retrieval vers Gemini ; multimodal vers GPT-5 ou Gemini. Le « meilleur modèle » dépend de la tâche, pas de la popularité.
- →Routing sensible à la latence. Le chat interactif obtient des modèles rapides/pas chers (Haiku, Gemini Flash, GPT-4o mini) ; les jobs background obtiennent les plus lents et plus capables.
- →Routing de fiabilité. Les systèmes de production routent vers un provider de backup quand le primaire est lent ou en erreur. La dépendance single-vendor est un risque opérationnel.
Ce qui rend le routing dur :
- →Coût de classification. Le router lui-même doit décider rapidement quel modèle utiliser. Un appel classifieur de 200ms devant une génération de 500ms est une pénalité de latence de 40 % pour aucun gain de qualité.
- →Drift. L'hypothèse « modèle pas cher assez bon » change alors que les modèles mettent à jour. La logique de routing nécessite une réévaluation périodique.
- →Évaluer la qualité de manière consistante. Vous avez besoin d'une évaluation qui marche à travers les modèles, sinon vous ne pouvez pas savoir si les réponses tier pas cher sont acceptables. Braintrust, LangSmith et outils similaires ont émergé pour adresser ça.
- →Vendor lock-in en formes subtiles. Différents modèles ont différentes bizarreries de mode JSON, formats de function-calling et styles de prompt. Supporter trois modèles bien est trois fois le travail de prompt-engineering d'un.
Ce qui vaut vraiment la peine d'être fait :
- →Commencez avec deux tiers. Un modèle pas cher pour les 80 % de cas faciles, un modèle capable pour les 20 % durs. Le routing deux-tier capture la plupart de la valeur avec une fraction de la complexité.
- →Mesurez avant d'optimiser. Si votre facture LLM est sous un certain seuil, la complexité du routing coûte plus qu'elle n'épargne.
- →Utilisez des providers avec des APIs similaires. OpenAI, Anthropic et Google ont convergé sur des patterns similaires de function-calling et sortie structurée. Partir de cette compatibilité rend le routing moins cher à implémenter.
- →Cachez, puis routez. Le prompt caching bat souvent le routing pour la réduction de coût sur les workloads avec préfixes réutilisés.
Le cadrage honnête : le LLM routing est utile mais habituellement sur-appliqué. Pour la plupart des applications à la plupart des échelles, choisir un bon modèle et l'utiliser bien bat un système de routing élaboré. Atteignez pour le routing quand vous avez la preuve que ça paiera, pas parce qu'un talk de conférence l'a fait sonner malin.
Learn AI — From Prompts to Agents
Qu'est-ce que le LLM routing ?
Le LLM routing consiste à diriger différentes requêtes vers différents modèles IA en fonction des exigences de la tâche.
Le concept de base
Requête utilisateur → Routeur → Modèle approprié
"Combien font 2+2 ?" → Modèle rapide et peu coûteux (GPT-3.5)
"Analyse ce contrat juridique" → Modèle puissant (GPT-4)
"Génère un poème" → Modèle créatif (Claude)
Pourquoi le routing est important
La réalité des coûts
| Modèle | Coût d'entrée (par 1M de tokens) | Qualité |
|---|---|---|
| GPT-3.5 Turbo | 0,50 $ | Bonne |
| GPT-4 Turbo | 10,00 $ | Excellente |
| GPT-4o | 2,50 $ | Très bonne |
| Claude 3 Haiku | 0,25 $ | Bonne |
| Claude 3 Opus | 15,00 $ | Excellente |
Différence de prix de 20 à 60× entre les modèles.
Le calcul
Sans routing :
1000 requêtes/jour × GPT-4 (0,01 $/requête) = 10 $/jour = 300 $/mois
Avec routing (70 % simples, 30 % complexes) :
700 requêtes × GPT-3.5 (0,0005 $) = 0,35 $
300 requêtes × GPT-4 (0,01 $) = 3,00 $
Total : 3,35 $/jour = 100 $/mois
Économies : 67 % de réduction des coûts
Stratégies de routing
1. Routing par type de tâche
Routez en fonction de ce que l'utilisateur demande :
Classification/extraction → Petit modèle
Écriture créative → Modèle moyen
Raisonnement complexe → Grand modèle
Génération de code → Modèle spécialisé
2. Routing par complexité
Estimez la difficulté de la requête :
Simple : "Quelle est la météo ?"
→ Modèle rapide
Moyen : "Résume cet article"
→ Modèle équilibré
Complexe : "Compare ces trois arguments juridiques"
→ Modèle puissant
3. Routing en cascade
Essayez d'abord un petit modèle, escaladez si nécessaire :
Étape 1 : Envoyer à GPT-3.5
Étape 2 : Vérifier la confiance/qualité
Étape 3 : Si incertain → renvoyer à GPT-4
4. Routing par intention
Classifiez l'intention, puis routez :
Intention : support_client → Modèle optimisé support
Intention : aide_code → Modèle spécialisé code
Intention : créatif → Modèle créatif
Intention : analyse → Modèle de raisonnement
Qu'est-ce qui rend une requête « complexe » ?
Indicateurs de complexité
✓ Raisonnement en plusieurs étapes nécessaire
✓ Expertise métier requise
✓ Long contexte à traiter
✓ Jugement nuancé nécessaire
✓ Enjeux élevés
Indicateurs de simplicité
✓ Recherche d'un fait unique
✓ Conversion de format simple
✓ Instruction courte et claire
✓ Faibles enjeux
✓ Sortie bien définie
Exemples concrets de routing
Bot de support client
"Quels sont vos horaires ?"
→ Routé vers FAQ + petit modèle
Coût : 0,0001 $ | Latence : 200 ms
"J'ai un litige complexe de facturation concernant..."
→ Routé vers modèle spécialisé support + marqueur d'escalade humaine
Coût : 0,005 $ | Latence : 1 s
Assistant de code
"Ajoute un commentaire à cette ligne"
→ Petit modèle rapide
Coût : 0,0002 $
"Refactorise cette fonction de 500 lignes pour la performance"
→ Grand modèle avec long contexte
Coût : 0,02 $
Assistant de recherche
"Quand a été construite la tour Eiffel ?"
→ Petit modèle (rappel factuel)
"Comparez les impacts économiques de trois politiques commerciales"
→ Grand modèle (analyse + raisonnement)
Approfondissement du pattern en cascade
L'approche en cascade est particulièrement puissante :
Étape 1 : Réception de la requête utilisateur
Étape 2 : Niveau 1 - Petit modèle (GPT-3.5/Haiku)
- →Confiant ? → Retourner la réponse
- →Pas confiant ? → Escalader
Étape 3 : Niveau 2 - Modèle moyen (GPT-4o/Sonnet)
- →Confiant ? → Retourner la réponse
- →Pas confiant ? → Escalader
Étape 4 : Niveau 3 - Grand modèle (GPT-4/Opus)
- →Retourne toujours une réponse
Avantages de la cascade
- →✓ La plupart des requêtes sont résolues par le modèle économique
- →✓ Les requêtes complexes bénéficient du meilleur modèle
- →✓ Optimisation naturelle qualité/coût
- →✓ Chemin d'escalade intégré
Implémenter un routeur simple
Approche conceptuelle
1. Analyser la requête entrante
- Longueur
- Mots-clés (ex. : « analyser », « comparer », « simple »)
- Détection du domaine
2. Attribuer un score de complexité (0-10)
- 0-3 : Simple → Petit modèle
- 4-6 : Moyen → Modèle moyen
- 7-10 : Complexe → Grand modèle
3. Router vers le modèle sélectionné
4. (Optionnel) Évaluer la qualité de la réponse
- Si qualité faible, relancer avec un modèle plus puissant
Signaux de routage
Indicateurs de requête simple :
- Courte (< 20 mots)
- Contient « qu'est-ce que », « définir », « quand »
- Question unique
Indicateurs de requête complexe :
- Longue (> 100 mots)
- Contient « analyser », « comparer », « évaluer »
- Sous-questions multiples
- Jargon technique
- Documents joints
Erreurs courantes de routing
1. Sur-routage vers les modèles coûteux
❌ Tout envoyer à GPT-4 « au cas où »
✅ Faire confiance aux petits modèles pour les tâches simples
2. Sous-routage des tâches complexes
❌ Toujours utiliser le modèle le moins cher
✅ Accepter un coût plus élevé pour les tâches critiques en qualité
3. Ignorer la latence
❌ Router uniquement en fonction du coût
✅ Considérer : les requêtes simples nécessitent des réponses rapides
4. Pas de repli
❌ Un seul modèle, pas de secours
✅ Avoir un chemin d'escalade quand la confiance est faible
Ce qu'il faut retenir
- →Le LLM routing associe les requêtes aux modèles appropriés
- →Peut réduire les coûts de 50 à 70 % sans perte de qualité
- →Routez par type de tâche, complexité ou cascade
- →Requêtes simples → modèles économiques/rapides ; complexes → modèles puissants
- →Surveillez et itérez, les règles de routage nécessitent des ajustements
Prêt à construire des workflows IA intelligents ?
Cet article a couvert le quoi et le pourquoi du LLM routing. Mais les systèmes de routage en production nécessitent des patterns d'implémentation, du monitoring et de l'optimisation.
Dans notre Module 4, Chaînage et routage, vous apprendrez :
- →Concevoir des architectures multi-modèles
- →Implémenter la logique de routage
- →Les patterns de cascade et les replis
- →Les stratégies d'optimisation des coûts
- →Le suivi et l'amélioration de la précision du routage
Module 4 — Chaining & Routing
Build multi-step prompt workflows with conditional logic.
Dorian Laurenceau
Full-Stack Developer & Learning DesignerFull-stack web developer and learning designer. I spent 4 years as a freelance full-stack developer and 4 years teaching React, JavaScript, HTML/CSS and WordPress to adult learners. Today I design learning paths in web development and AI, grounded in learning science. I founded learn-prompting.fr to make AI practical and accessible, and built the Bluff app to gamify political transparency.
Weekly AI Insights
Tools, techniques & news — curated for AI practitioners. Free, no spam.
Free, no spam. Unsubscribe anytime.
→Related Articles
FAQ
Qu'est-ce que le LLM routing ?+
Le LLM routing sélectionne automatiquement le meilleur modèle IA pour chaque requête. Les questions simples sont dirigées vers des modèles rapides et peu coûteux ; les tâches complexes vers des modèles puissants et coûteux. Il optimise coûts et latence sans sacrifier la qualité.
Pourquoi ne pas toujours utiliser le meilleur modèle ?+
Le coût et la vitesse. GPT-4 coûte 10 à 30 fois plus cher que GPT-3.5 et est plus lent. Pour « Combien font 2+2 ? », un petit modèle suffit. Le routing n'utilise les modèles coûteux que lorsque c'est nécessaire.
Comment fonctionne le routage de modèles ?+
Un classifieur (souvent un petit LLM) analyse la requête et prédit la difficulté de la tâche. En fonction de cela, il redirige vers le modèle approprié. Certains systèmes utilisent des cascades : essayer d'abord les modèles peu coûteux, puis escalader si nécessaire.
Quels sont les avantages du LLM routing ?+
Réduction des coûts de 60 à 80 % avec une qualité similaire, réponses plus rapides pour les requêtes simples, possibilité d'utiliser des modèles spécialisés pour des tâches spécifiques, et basculement automatique en cas de défaillance d'un modèle.