Retour aux articles
9 MIN READ

LLM Routing : choisir le bon modèle pour chaque tâche

By Dorian Laurenceau

📅 Dernière révision : 24 avril 2026. Mise à jour avec les retours et observations d'avril 2026.

Faut-il envoyer chaque question à GPT-4 ? C'est comme prendre une voiture de sport pour aller chercher le pain, excessif pour les tâches simples et inutilement coûteux. Le LLM routing associe les questions au bon modèle, en optimisant coût et vitesse sans sacrifier la qualité.


<!-- manual-insight -->

LLM routing : ce que les équipes de production font vraiment vs la version du blog post

Le LLM routing est devenu l'une des techniques d'optimisation de coût les plus discutées dans les applications LLM en production. Les threads sur r/LangChain, r/LocalLLaMA et r/MachineLearning reflètent un écart entre la simplicité du concept et la réalité de production.

À quoi ressemble vraiment le routing en production :

  • Cascades étagées. Modèle le moins cher d'abord ; escalader vers des modèles plus capables si le modèle pas cher flague l'incertitude ou si la sortie échoue à la validation. Déployé à l'échelle par la recherche RouteLLM d'Anyscale et des projets similaires.
  • Routing basé sur la tâche. Requêtes de code vers Claude/GPT-5 Codex ; requêtes d'écriture vers Claude Opus ; requêtes heavy-retrieval vers Gemini ; multimodal vers GPT-5 ou Gemini. Le « meilleur modèle » dépend de la tâche, pas de la popularité.
  • Routing sensible à la latence. Le chat interactif obtient des modèles rapides/pas chers (Haiku, Gemini Flash, GPT-4o mini) ; les jobs background obtiennent les plus lents et plus capables.
  • Routing de fiabilité. Les systèmes de production routent vers un provider de backup quand le primaire est lent ou en erreur. La dépendance single-vendor est un risque opérationnel.

Ce qui rend le routing dur :

  • Coût de classification. Le router lui-même doit décider rapidement quel modèle utiliser. Un appel classifieur de 200ms devant une génération de 500ms est une pénalité de latence de 40 % pour aucun gain de qualité.
  • Drift. L'hypothèse « modèle pas cher assez bon » change alors que les modèles mettent à jour. La logique de routing nécessite une réévaluation périodique.
  • Évaluer la qualité de manière consistante. Vous avez besoin d'une évaluation qui marche à travers les modèles, sinon vous ne pouvez pas savoir si les réponses tier pas cher sont acceptables. Braintrust, LangSmith et outils similaires ont émergé pour adresser ça.
  • Vendor lock-in en formes subtiles. Différents modèles ont différentes bizarreries de mode JSON, formats de function-calling et styles de prompt. Supporter trois modèles bien est trois fois le travail de prompt-engineering d'un.

Ce qui vaut vraiment la peine d'être fait :

  • Commencez avec deux tiers. Un modèle pas cher pour les 80 % de cas faciles, un modèle capable pour les 20 % durs. Le routing deux-tier capture la plupart de la valeur avec une fraction de la complexité.
  • Mesurez avant d'optimiser. Si votre facture LLM est sous un certain seuil, la complexité du routing coûte plus qu'elle n'épargne.
  • Utilisez des providers avec des APIs similaires. OpenAI, Anthropic et Google ont convergé sur des patterns similaires de function-calling et sortie structurée. Partir de cette compatibilité rend le routing moins cher à implémenter.
  • Cachez, puis routez. Le prompt caching bat souvent le routing pour la réduction de coût sur les workloads avec préfixes réutilisés.

Le cadrage honnête : le LLM routing est utile mais habituellement sur-appliqué. Pour la plupart des applications à la plupart des échelles, choisir un bon modèle et l'utiliser bien bat un système de routing élaboré. Atteignez pour le routing quand vous avez la preuve que ça paiera, pas parce qu'un talk de conférence l'a fait sonner malin.


Learn AI — From Prompts to Agents

10 Free Interactive Guides120+ Hands-On Exercises100% Free

Qu'est-ce que le LLM routing ?

Le LLM routing consiste à diriger différentes requêtes vers différents modèles IA en fonction des exigences de la tâche.

Le concept de base

Requête utilisateur → Routeur → Modèle approprié

"Combien font 2+2 ?" → Modèle rapide et peu coûteux (GPT-3.5)
"Analyse ce contrat juridique" → Modèle puissant (GPT-4)
"Génère un poème" → Modèle créatif (Claude)

Pourquoi le routing est important

La réalité des coûts

ModèleCoût d'entrée (par 1M de tokens)Qualité
GPT-3.5 Turbo0,50 $Bonne
GPT-4 Turbo10,00 $Excellente
GPT-4o2,50 $Très bonne
Claude 3 Haiku0,25 $Bonne
Claude 3 Opus15,00 $Excellente

Différence de prix de 20 à 60× entre les modèles.

Le calcul

Sans routing :
1000 requêtes/jour × GPT-4 (0,01 $/requête) = 10 $/jour = 300 $/mois

Avec routing (70 % simples, 30 % complexes) :
700 requêtes × GPT-3.5 (0,0005 $) = 0,35 $
300 requêtes × GPT-4 (0,01 $) = 3,00 $
Total : 3,35 $/jour = 100 $/mois

Économies : 67 % de réduction des coûts

Stratégies de routing

1. Routing par type de tâche

Routez en fonction de ce que l'utilisateur demande :

Classification/extraction → Petit modèle
Écriture créative → Modèle moyen
Raisonnement complexe → Grand modèle
Génération de code → Modèle spécialisé

2. Routing par complexité

Estimez la difficulté de la requête :

Simple : "Quelle est la météo ?"
→ Modèle rapide

Moyen : "Résume cet article"
→ Modèle équilibré

Complexe : "Compare ces trois arguments juridiques"
→ Modèle puissant

3. Routing en cascade

Essayez d'abord un petit modèle, escaladez si nécessaire :

Étape 1 : Envoyer à GPT-3.5
Étape 2 : Vérifier la confiance/qualité
Étape 3 : Si incertain → renvoyer à GPT-4

4. Routing par intention

Classifiez l'intention, puis routez :

Intention : support_client → Modèle optimisé support
Intention : aide_code → Modèle spécialisé code
Intention : créatif → Modèle créatif
Intention : analyse → Modèle de raisonnement

Qu'est-ce qui rend une requête « complexe » ?

Indicateurs de complexité

✓ Raisonnement en plusieurs étapes nécessaire
✓ Expertise métier requise
✓ Long contexte à traiter
✓ Jugement nuancé nécessaire
✓ Enjeux élevés

Indicateurs de simplicité

✓ Recherche d'un fait unique
✓ Conversion de format simple
✓ Instruction courte et claire
✓ Faibles enjeux
✓ Sortie bien définie

Exemples concrets de routing

Bot de support client

"Quels sont vos horaires ?"
→ Routé vers FAQ + petit modèle
   Coût : 0,0001 $ | Latence : 200 ms

"J'ai un litige complexe de facturation concernant..."
→ Routé vers modèle spécialisé support + marqueur d'escalade humaine
   Coût : 0,005 $ | Latence : 1 s

Assistant de code

"Ajoute un commentaire à cette ligne"
→ Petit modèle rapide
   Coût : 0,0002 $

"Refactorise cette fonction de 500 lignes pour la performance"
→ Grand modèle avec long contexte
   Coût : 0,02 $

Assistant de recherche

"Quand a été construite la tour Eiffel ?"
→ Petit modèle (rappel factuel)

"Comparez les impacts économiques de trois politiques commerciales"
→ Grand modèle (analyse + raisonnement)

Approfondissement du pattern en cascade

L'approche en cascade est particulièrement puissante :

Étape 1 : Réception de la requête utilisateur

Étape 2 : Niveau 1 - Petit modèle (GPT-3.5/Haiku)

  • Confiant ? → Retourner la réponse
  • Pas confiant ? → Escalader

Étape 3 : Niveau 2 - Modèle moyen (GPT-4o/Sonnet)

  • Confiant ? → Retourner la réponse
  • Pas confiant ? → Escalader

Étape 4 : Niveau 3 - Grand modèle (GPT-4/Opus)

  • Retourne toujours une réponse

Avantages de la cascade

  • ✓ La plupart des requêtes sont résolues par le modèle économique
  • ✓ Les requêtes complexes bénéficient du meilleur modèle
  • ✓ Optimisation naturelle qualité/coût
  • ✓ Chemin d'escalade intégré

Implémenter un routeur simple

Approche conceptuelle

1. Analyser la requête entrante
   - Longueur
   - Mots-clés (ex. : « analyser », « comparer », « simple »)
   - Détection du domaine

2. Attribuer un score de complexité (0-10)
   - 0-3 : Simple → Petit modèle
   - 4-6 : Moyen → Modèle moyen
   - 7-10 : Complexe → Grand modèle

3. Router vers le modèle sélectionné

4. (Optionnel) Évaluer la qualité de la réponse
   - Si qualité faible, relancer avec un modèle plus puissant

Signaux de routage

Indicateurs de requête simple :
- Courte (< 20 mots)
- Contient « qu'est-ce que », « définir », « quand »
- Question unique

Indicateurs de requête complexe :
- Longue (> 100 mots)
- Contient « analyser », « comparer », « évaluer »
- Sous-questions multiples
- Jargon technique
- Documents joints

Erreurs courantes de routing

1. Sur-routage vers les modèles coûteux

❌ Tout envoyer à GPT-4 « au cas où »
✅ Faire confiance aux petits modèles pour les tâches simples

2. Sous-routage des tâches complexes

❌ Toujours utiliser le modèle le moins cher
✅ Accepter un coût plus élevé pour les tâches critiques en qualité

3. Ignorer la latence

❌ Router uniquement en fonction du coût
✅ Considérer : les requêtes simples nécessitent des réponses rapides

4. Pas de repli

❌ Un seul modèle, pas de secours
✅ Avoir un chemin d'escalade quand la confiance est faible

Ce qu'il faut retenir

  1. Le LLM routing associe les requêtes aux modèles appropriés
  2. Peut réduire les coûts de 50 à 70 % sans perte de qualité
  3. Routez par type de tâche, complexité ou cascade
  4. Requêtes simples → modèles économiques/rapides ; complexes → modèles puissants
  5. Surveillez et itérez, les règles de routage nécessitent des ajustements

Prêt à construire des workflows IA intelligents ?

Cet article a couvert le quoi et le pourquoi du LLM routing. Mais les systèmes de routage en production nécessitent des patterns d'implémentation, du monitoring et de l'optimisation.

Dans notre Module 4, Chaînage et routage, vous apprendrez :

  • Concevoir des architectures multi-modèles
  • Implémenter la logique de routage
  • Les patterns de cascade et les replis
  • Les stratégies d'optimisation des coûts
  • Le suivi et l'amélioration de la précision du routage

Explorer le Module 4 : Chaînage et routage

GO DEEPER — FREE GUIDE

Module 4 — Chaining & Routing

Build multi-step prompt workflows with conditional logic.

D

Dorian Laurenceau

Full-Stack Developer & Learning Designer

Full-stack web developer and learning designer. I spent 4 years as a freelance full-stack developer and 4 years teaching React, JavaScript, HTML/CSS and WordPress to adult learners. Today I design learning paths in web development and AI, grounded in learning science. I founded learn-prompting.fr to make AI practical and accessible, and built the Bluff app to gamify political transparency.

Prompt EngineeringLLMsFull-Stack DevelopmentLearning DesignReact
Published: January 30, 2026Updated: April 24, 2026
Newsletter

Weekly AI Insights

Tools, techniques & news — curated for AI practitioners. Free, no spam.

Free, no spam. Unsubscribe anytime.

FAQ

Qu'est-ce que le LLM routing ?+

Le LLM routing sélectionne automatiquement le meilleur modèle IA pour chaque requête. Les questions simples sont dirigées vers des modèles rapides et peu coûteux ; les tâches complexes vers des modèles puissants et coûteux. Il optimise coûts et latence sans sacrifier la qualité.

Pourquoi ne pas toujours utiliser le meilleur modèle ?+

Le coût et la vitesse. GPT-4 coûte 10 à 30 fois plus cher que GPT-3.5 et est plus lent. Pour « Combien font 2+2 ? », un petit modèle suffit. Le routing n'utilise les modèles coûteux que lorsque c'est nécessaire.

Comment fonctionne le routage de modèles ?+

Un classifieur (souvent un petit LLM) analyse la requête et prédit la difficulté de la tâche. En fonction de cela, il redirige vers le modèle approprié. Certains systèmes utilisent des cascades : essayer d'abord les modèles peu coûteux, puis escalader si nécessaire.

Quels sont les avantages du LLM routing ?+

Réduction des coûts de 60 à 80 % avec une qualité similaire, réponses plus rapides pour les requêtes simples, possibilité d'utiliser des modèles spécialisés pour des tâches spécifiques, et basculement automatique en cas de défaillance d'un modèle.