March 10, 202610 MIN READ

Extended Thinking Claude : Raisonnement Approfondi en

Q: Qu'est-ce que l'Extended Thinking de Claude ?

L'Extended Thinking permet à Claude de 'réfléchir' avant de répondre, en explorant différentes approches et en vérifiant son raisonnement. Les thinking blocks sont visibles dans la réponse API mais ne sont pas facturés comme tokens de sortie standard.

Q: Quand utiliser l'Extended Thinking ?

Utilisez-le pour les problèmes complexes : mathématiques avancées, raisonnement multi-étapes, analyse de code, planification, résolution de bugs et toute tâche nécessitant une réflexion approfondie.

Q: Quel est le coût de l'Extended Thinking ?

Les thinking tokens sont facturés au même tarif que les tokens de sortie. Cependant, le thinking adaptatif de Claude 4.6 optimise automatiquement le budget en n'utilisant que les tokens nécessaires.

Q: L'Extended Thinking fonctionne-t-il en streaming ?

Oui, l'Extended Thinking est compatible avec le streaming. Vous recevez d'abord les thinking blocks, puis le contenu de la réponse finale. Vous pouvez choisir d'afficher ou de masquer les thinking blocks côté client.

Q: Quelle est la différence entre Extended Thinking et le thinking adaptatif de Claude 4.6 ?

L'Extended Thinking classique utilise un budget fixe. Le thinking adaptatif de Claude 4.6 ajuste automatiquement l'effort de réflexion selon la complexité de la question, optimisant le coût et la latence.

Q: Comment désactiver la pensée étendue dans Claude ?

Dans l'API, ne définissez pas le paramètre 'thinking' ou passez-le à 'disabled'. Dans l'interface web claude.ai, la pensée étendue s'active automatiquement selon la complexité de la question, vous n'avez pas besoin de la désactiver manuellement. Dans Claude Code, utilisez le flag --no-thinking pour forcer des réponses rapides.

Q: Quel est le meilleur modèle de Claude pour le raisonnement ?

Opus 4.6 avec extended thinking activé est le meilleur modèle Claude pour le raisonnement complexe (mathématiques, logique, architecture système). Pour le raisonnement standard, Sonnet 4.6 avec son thinking adaptatif offre un excellent rapport qualité/prix, il ajuste automatiquement son effort de réflexion selon la difficulté.

By Dorian Laurenceau

Part ofModule 0 — Prompting Fundamentals→

Extended Thinking Claude : Raisonnement Approfondi en Pratique

📅 Dernière révision : 24 avril 2026. Mise à jour avec les retours et observations d'avril 2026.

🔗 Article pilier : API Claude : Guide Complet

Qu'est-ce que l'Extended Thinking ?

L'Extended Thinking est une fonctionnalité qui permet à Claude de réfléchir en profondeur avant de répondre. Au lieu de générer immédiatement une réponse, Claude :

→Explore différentes approches au problème
→Vérifie son raisonnement étape par étape
→Corrige ses erreurs en cours de route
→Formule une réponse finale plus fiable

C'est l'équivalent de demander à un expert de prendre le temps de réfléchir plutôt que de répondre instantanément.

Sans vs Avec Extended Thinking

Aspect	Sans Extended Thinking	Avec Extended Thinking
Réponse	Immédiate, directe	Réfléchie, structurée
Mathématiques	Erreurs fréquentes sur les problèmes complexes	Résolution méthodique
Code	Bugs subtils possibles	Vérification pas à pas
Analyse	Superficielle	Multi-perspective
Latence	Faible	Plus élevée (proportionnelle au budget)
Coût	Standard	+ thinking tokens

L'état honnête des features de « pensée étendue » sur les modèles frontières — l'extended thinking d'Anthropic, la série o d'OpenAI, le mode reasoning de DeepSeek — c'est qu'ils échangent latence et coût contre un gain de qualité réel mais étroit. Les praticiens sur r/MachineLearning et r/LocalLLaMA arrivent au même profil : maths, raisonnement logique multi-étapes, et code avec contraintes non évidentes profitent clairement ; reformulation, résumé et Q&R single-hop non. Activer l'extended thinking pour chaque tâche est un gaspillage de tokens ; le désactiver pour les tâches qui en ont besoin est un gaspillage de précision.

Là où la communauté nuance à juste titre le marketing : les tokens de « thinking » ne sont pas du raisonnement observable au sens philosophique — ce sont un scratchpad étendu qui corrèle statistiquement avec de meilleures réponses finales sur les tâches à forte charge de raisonnement. Les travaux sur le Chain-of-Thought prompting et les débats ultérieurs sur la fidélité du CoT à la cognition du modèle sont le bon contexte. Version courte : considérez la trace de pensée comme un outil de débogage pour vous, pas comme une transcription littérale des croyances du modèle.

Règle opérationnelle pragmatique : benchez votre propre workload avec et sans extended thinking sur un eval set fixe, puis adoptez-le uniquement là où le gain de précision dépasse le surcoût de latence et de tokens. Pour la majorité des workflows en production, un budget modéré (1 à 4k thinking tokens) sur les 20 % de tâches les plus dures s'amortit ; l'activation globale rarement.

Activer l'Extended Thinking via l'API

Implémentation de Base

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000  # Budget max pour la réflexion
    },
    messages=[{
        "role": "user",
        "content": "Résous ce problème de programmation dynamique : étant donné un tableau d'entiers, trouve la sous-séquence croissante la plus longue."
    }]
)

# Parcourir les blocs de réponse
for block in response.content:
    if block.type == "thinking":
        print("🧠 Réflexion :")
        print(block.thinking)
        print("---")
    elif block.type == "text":
        print("💬 Réponse :")
        print(block.text)

Thinking Adaptatif (Claude 4.6)

Le thinking adaptatif de Claude 4.6 ajuste automatiquement l'effort de réflexion selon la complexité :

response = client.messages.create(
    model="claude-opus-4-20250918",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000  # Budget MAXIMUM, pas fixe
    },
    messages=[{
        "role": "user",
        "content": "Quelle est la capitale de la France ?"
    }]
)
# → Thinking minimal (~50 tokens) car la question est simple

response2 = client.messages.create(
    model="claude-opus-4-20250918",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000
    },
    messages=[{
        "role": "user",
        "content": "Prouve que la racine carrée de 2 est irrationnelle."
    }]
)
# → Thinking étendu (~5000 tokens) car le problème est complexe

Budget Tokens : Optimiser le Coût

Le budget_tokens définit le nombre maximum de tokens que Claude peut utiliser pour réfléchir.

Budget	Meilleur pour	Latence ajoutée
1 000 - 3 000	Questions faciles, clarifications	< 2s
3 000 - 8 000	Raisonnement modéré, debug de code	2-5s
8 000 - 15 000	Mathématiques complexes, architecture	5-15s
15 000 - 32 000	Problèmes très complexes, preuves	15-30s

Stratégie d'Allocation

def get_thinking_budget(task_type):
    """Retourne un budget thinking adapté au type de tâche."""
    budgets = {
        "simple_qa": 1000,
        "code_review": 5000,
        "bug_fix": 8000,
        "algorithm_design": 12000,
        "math_proof": 20000,
        "architecture": 15000,
    }
    return budgets.get(task_type, 5000)

# Utilisation
budget = get_thinking_budget("bug_fix")
response = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=16000,
    thinking={"type": "enabled", "budget_tokens": budget},
    messages=[{"role": "user", "content": "..."}]
)

Contraintes Importantes

→Minimum : budget_tokens doit être ≥ 1024
→Maximum : budget_tokens + max_tokens ne doit pas dépasser la limite du modèle
→Facturation : Les thinking tokens sont facturés au tarif des tokens de sortie
→Pas de cache : Les thinking tokens ne sont pas éligibles au prompt caching

Quand Utiliser l'Extended Thinking ?

✅ À Utiliser

Cas d'usage	Exemple	Gain attendu
Mathématiques	Résoudre des équations, prouver des théorèmes	+40% de précision
Programmation	Concevoir des algorithmes, debugger du code complexe	+35% de précision
Analyse logique	Détecter des failles dans un argument	+30% de précision
Planification	Créer un plan de migration technique	Meilleure couverture
Rédaction structurée	Rédiger un RFC ou une spécification	Plus cohérent

❌ À Éviter

→Questions factuelles simples : "Quelle est la capitale de la France ?" → Pas besoin
→Tâches créatives libres : "Écris un poème" → Le thinking n'améliore pas la créativité
→chatbots à faible latence : Le thinking ajoute de la latence
→Budget serré : Les thinking tokens sont facturés et s'additionnent vite

Streaming avec Extended Thinking

with client.messages.stream(
    model="claude-sonnet-4-20250514",
    max_tokens=16000,
    thinking={"type": "enabled", "budget_tokens": 8000},
    messages=[{"role": "user", "content": "Conçois une base de données pour un réseau social."}]
) as stream:
    current_type = None
    for event in stream:
        if hasattr(event, 'type'):
            if event.type == "content_block_start":
                block_type = event.content_block.type
                if block_type == "thinking":
                    print("\n🧠 Réflexion en cours...")
                    current_type = "thinking"
                elif block_type == "text":
                    print("\n💬 Réponse :")
                    current_type = "text"
            elif event.type == "content_block_delta":
                if current_type == "thinking" and hasattr(event.delta, 'thinking'):
                    print(event.delta.thinking, end="")
                elif current_type == "text" and hasattr(event.delta, 'text'):
                    print(event.delta.text, end="")

Ordre des Blocs en Streaming

1. message_start
2. content_block_start (type: "thinking")
3. content_block_delta (thinking content...)  ← blocs de réflexion
4. content_block_stop
5. content_block_start (type: "text")
6. content_block_delta (text content...)     ← réponse finale
7. content_block_stop
8. message_stop

Benchmarks de Performance

L'Extended Thinking améliore significativement les performances sur les benchmarks de raisonnement :

Benchmark	Sans Thinking	Avec Thinking	Amélioration
MATH (niveau 5)	71.2%	93.4%	+22.2%
GPQA (Diamond)	65.0%	81.3%	+16.3%
SWE-bench	38.2%	52.1%	+13.9%
HumanEval	88.5%	95.7%	+7.2%
ARC-Challenge	89.1%	96.8%	+7.7%

Patterns Avancés

Conversation Multi-tours avec Thinking

messages = []

def chat_with_thinking(user_msg, budget=5000):
    messages.append({"role": "user", "content": user_msg})
    
    response = client.messages.create(
        model="claude-sonnet-4-20250514",
        max_tokens=16000,
        thinking={"type": "enabled", "budget_tokens": budget},
        messages=messages
    )
    
    # Ajouter la réponse complète (sans les thinking blocks)
    assistant_content = [
        block for block in response.content
        if block.type == "text"
    ]
    messages.append({"role": "assistant", "content": assistant_content})
    
    return response

# Utilisation
chat_with_thinking("Conçois un algorithme de recommandation.", budget=10000)
chat_with_thinking("Optimise-le pour la scalabilité.", budget=8000)

Budget Dynamique selon la Complexité

def estimate_complexity(message):
    """Estime la complexité d'une question pour ajuster le budget."""
    complexity_indicators = {
        "prouve": 3, "démontre": 3, "optimise": 2,
        "algorithme": 2, "architecture": 2, "compare": 1,
        "conçois": 2, "debug": 2, "pourquoi": 1,
        "analyse": 1, "explique": 0.5
    }
    
    score = sum(
        weight for keyword, weight in complexity_indicators.items()
        if keyword in message.lower()
    )
    
    if score <= 1:
        return 2000
    elif score <= 3:
        return 6000
    elif score <= 5:
        return 12000
    else:
        return 20000

budget = estimate_complexity("Prouve et démontre que cet algorithme est optimal.")
# → 20000 tokens (complexité élevée)

Erreurs Courantes

Erreur	Cause	Solution
Budget trop petit	`budget_tokens` < 1024	Minimum 1024 tokens
Réponse tronquée	`max_tokens` trop bas après le thinking	Augmentez `max_tokens`
Coût élevé inattendu	Thinking sur chaque requête	Activez le thinking uniquement quand nécessaire
Thinking vide	Question trop simple	Le thinking adaptatif peut sauter la réflexion

GO DEEPER — FREE GUIDE

Module 0 — Prompting Fundamentals

Build your first effective prompts from scratch with hands-on exercises.

Explorer le Module

Dorian Laurenceau

Full-Stack Developer & Learning Designer

Full-stack web developer and learning designer. I spent 4 years as a freelance full-stack developer and 4 years teaching React, JavaScript, HTML/CSS and WordPress to adult learners. Today I design learning paths in web development and AI, grounded in learning science. I founded learn-prompting.fr to make AI practical and accessible, and built the Bluff app to gamify political transparency.

Prompt EngineeringLLMsFull-Stack DevelopmentLearning DesignReact

Published: March 10, 2026Updated: April 24, 2026

Newsletter

Weekly AI Insights

Tools, techniques & news — curated for AI practitioners. Free, no spam.

Free, no spam. Unsubscribe anytime.

FAQ

Qu'est-ce que l'Extended Thinking de Claude ?+