March 10, 202610 MIN READ

Claude Vision : Analyser Images, Graphiques et Documents

By Dorian Laurenceau

Part ofModule 0 — Prompting Fundamentals→

Claude Vision : Analyser Images, Graphiques et Documents Visuels

📅 Dernière révision : 24 avril 2026. Mise à jour avec les retours et observations d'avril 2026.

🔗 Article pilier : API Claude : Guide Complet

Qu'est-ce que Claude Vision ?

Claude Vision est la capacité multimodale de Claude qui lui permet de comprendre et analyser des images. Contrairement à la simple reconnaissance d'objets, Claude peut :

→Lire du texte (OCR) dans des documents, captures d'écran et photos
→Interpréter des graphiques et en extraire les données
→Analyser des diagrammes techniques (UML, architecture, workflows)
→Décrire des images en détail avec contexte
→Comparer plusieurs images dans une même requête

La lecture honnête de Claude Vision en 2026, suivie sur r/ClaudeAI, r/LocalLLaMA, et r/computervision : les modèles vision sont très bons sur les tâches sur lesquelles ils ont été entraînés à s'évaluer eux-mêmes (description, captioning, lecture de charts sur formats communs) et inégalement bons sur les tâches pour lesquelles les gens les veulent en prod (extraction de données d'un template de facture spécifique, lecture de notes cliniques manuscrites, parsing d'un screenshot d'UI legacy). La documentation vision d'Anthropic et le leaderboard MMMU reflètent tous deux ce gap — les scores de tête sont hauts, les cas limites réels sont où les échecs se cachent.

Là où la communauté nuance à juste titre le hype vision : l'OCR reste un problème d'outillage dédié pour tout ce qui compte. Tesseract, Textract, Google Document AI, et l'API OCR de Mistral battent systématiquement les modèles vision généralistes sur l'extraction de documents structurés, et ils donnent des confidence scores que Claude Vision ne fournit pas. Pour les charts, Nougat et les parseurs dédiés battent les modèles vision généraux sur tout contenu numérique dense.

Règle pragmatique des équipes qui ont déployé des pipelines vision sans incident d'hallucination : utilisez Claude Vision pour la couche sémantique — « de quoi parle ce document », « quel type de chart », « cet ID est-il légitime » — et routez l'extraction numérique réelle vers un OCR/parseur dédié. La combinaison est plus fiable que chaque outil seul, et le calcul de coût tombe juste généralement.

Envoyer une Image via l'API

Méthode 1 : Base64

La méthode base64 encode l'image directement dans la requête. Idéale pour les images locales.

import anthropic
import base64

client = anthropic.Anthropic()

# Encoder l'image en base64
with open("graphique-ventes.png", "rb") as f:
    image_data = base64.standard_b64encode(f.read()).decode("utf-8")

response = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    messages=[{
        "role": "user",
        "content": [
            {
                "type": "image",
                "source": {
                    "type": "base64",
                    "media_type": "image/png",
                    "data": image_data
                }
            },
            {
                "type": "text",
                "text": "Analyse ce graphique de ventes. Quelles tendances observes-tu ?"
            }
        ]
    }]
)

print(response.content[0].text)

Méthode 2 : URL

La méthode URL pointe vers une image accessible publiquement.

response = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    messages=[{
        "role": "user",
        "content": [
            {
                "type": "image",
                "source": {
                    "type": "url",
                    "url": "https://example.com/dashboard-screenshot.png"
                }
            },
            {
                "type": "text",
                "text": "Décris ce dashboard et identifie les KPIs visibles."
            }
        ]
    }]
)

Comparaison des Méthodes

Aspect	Base64	URL
Images locales	✅	❌
Images en ligne	⚠️ (télécharger d'abord)	✅
Taille requête	Plus grande	Plus petite
Fiabilité	Toujours fonctionne	Dépend de l'accès URL
Recommandé pour	Applications, scripts	Prototypage rapide

Formats et Limites

Format	Supporté	Notes
JPEG	✅	Format le plus courant, bonne compression
PNG	✅	Idéal pour les captures d'écran et diagrammes
GIF	✅	Premier frame uniquement (pas d'animation)
WebP	✅	Bon compromis taille/qualité
SVG	❌	Convertir en PNG d'abord
PDF	⚠️	Via la fonctionnalité document, pas image
TIFF	❌	Convertir en JPEG ou PNG

Limites techniques :

→Taille max : 20 Mo par image
→Images par requête : Jusqu'à 100
→Résolution : Automatiquement redimensionnée si trop grande
→Tokens : Calculés en fonction de la résolution de l'image

Calcul des Tokens par Image

Les images consomment des tokens proportionnellement à leur taille :

Résolution	Tokens approximatifs
200×200	~250 tokens
500×500	~800 tokens
1000×1000	~1 600 tokens
1920×1080	~2 500 tokens
4000×3000	~5 000 tokens

Multi-Image : Comparaison et Analyse

Claude peut analyser plusieurs images simultanément, ce qui ouvre des cas d'usage puissants.

import base64

def load_image(path):
    with open(path, "rb") as f:
        return base64.standard_b64encode(f.read()).decode("utf-8")

response = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=2048,
    messages=[{
        "role": "user",
        "content": [
            {
                "type": "image",
                "source": {"type": "base64", "media_type": "image/png",
                           "data": load_image("design-v1.png")}
            },
            {
                "type": "image",
                "source": {"type": "base64", "media_type": "image/png",
                           "data": load_image("design-v2.png")}
            },
            {
                "type": "text",
                "text": """Compare ces deux versions du design :
                1. Quelles sont les différences majeures ?
                2. Quelle version respecte mieux les principes UX ?
                3. Suggestions d'amélioration pour la version retenue."""
            }
        ]
    }]
)

Cas d'Usage Multi-Image

Cas d'usage	Nombre d'images	Description
Avant/Après	2	Comparer un design avant et après modification
A/B Testing	2-4	Évaluer des variantes de maquettes
Audit UI	5-10	Vérifier la cohérence visuelle d'un site
Classification	10-50	Catégoriser un lot de photos produit
Documentation	3-10	Extraire le contenu de plusieurs pages scannées

OCR et Extraction de Texte

Claude excelle en reconnaissance de texte (OCR), bien au-delà de la simple lecture de caractères.

# OCR d'un document scanné
response = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=4096,
    messages=[{
        "role": "user",
        "content": [
            {
                "type": "image",
                "source": {"type": "base64", "media_type": "image/jpeg",
                           "data": load_image("facture-scan.jpg")}
            },
            {
                "type": "text",
                "text": """Extrais les informations suivantes de cette facture :
                - Numéro de facture
                - Date
                - Nom du fournisseur
                - Montant HT
                - TVA
                - Montant TTC
                - Liste des articles avec prix unitaire
                
                Retourne le résultat en JSON structuré."""
            }
        ]
    }]
)

Capacités OCR

Type de document	Qualité	Notes
Texte imprimé	⭐⭐⭐⭐⭐	Excellente précision
Captures d'écran	⭐⭐⭐⭐⭐	Lit le texte et comprend l'interface
Manuscrit lisible	⭐⭐⭐⭐	Bonne qualité, dépend de l'écriture
Manuscrit illisible	⭐⭐	Résultats variables
Documents scannés (bonne qualité)	⭐⭐⭐⭐⭐	Comprend la mise en page
Documents scannés (mauvaise qualité)	⭐⭐⭐	Peut manquer des détails

Analyse de Graphiques et Diagrammes

response = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=2048,
    messages=[{
        "role": "user",
        "content": [
            {
                "type": "image",
                "source": {"type": "base64", "media_type": "image/png",
                           "data": load_image("graphique-financier.png")}
            },
            {
                "type": "text",
                "text": """Analyse ce graphique financier :
                1. Quels sont les axes et leurs unités ?
                2. Quelle est la tendance générale ?
                3. Identifie les points d'inflexion ou anomalies.
                4. Extrais les valeurs approximatives des points clés.
                5. Résume en 3 insights pour un directeur financier."""
            }
        ]
    }]
)

Types de Visuels Analysables

Type	Capacité	Exemple d'extraction
Graphique en barres	✅ Valeurs et labels	"Q1: 120K, Q2: 145K, Q3: 98K"
Graphique en ligne	✅ Tendances et points	"Croissance de 15% entre mars et juin"
Camembert	✅ Proportions	"Marketing: 35%, R&D: 28%, Ventes: 22%"
Tableau dans image	✅ Extraction structurée	Reconstitue le tableau en Markdown
Diagramme UML	✅ Relations et entités	"3 classes avec héritage et 2 interfaces"
Organigramme	✅ Hiérarchie	Structure de l'organisation
Architecture système	✅ Composants et flux	"Microservices avec API Gateway et Redis"

À retenir

Optimiser la Qualité d'Analyse

→Utilisez des images de haute qualité, Résolution suffisante pour que le texte soit lisible
→Cadrez bien le sujet, Évitez les images trop larges avec le contenu important en petit
→Préférez PNG pour les captures d'écran, Pas de compression avec perte
→Orientez l'image correctement, Claude gère la rotation, mais mieux vaut une orientation correcte

Optimiser les Coûts

→Redimensionnez avant envoi, Une image 1000×1000 suffit pour la plupart des analyses
→Compressez les JPEG, Qualité 80% est suffisante pour l'OCR
→Limitez le nombre d'images, Envoyez uniquement les images nécessaires
→Utilisez les bonnes résolutions par cas d'usage :

Cas d'usage	Résolution recommandée	Tokens approx.
OCR texte	1000-1500px de large	~1 500
Graphique simple	800-1200px	~1 200
UI complète	1920×1080	~2 500
Photo de document	1500-2000px	~2 000

Rédiger des Prompts Visuels Efficaces

❌ Prompt vague	✅ Prompt précis
"Que vois-tu ?"	"Liste tous les éléments UI visibles avec leur texte et position."
"Analyse cette image"	"Extrais les 5 KPIs affichés dans ce dashboard et leurs valeurs."
"Lis ce document"	"Extrais le nom, la date et le montant total de cette facture en JSON."

GO DEEPER — FREE GUIDE

Module 0 — Prompting Fundamentals

Build your first effective prompts from scratch with hands-on exercises.

Explorer le Module

Dorian Laurenceau

Full-Stack Developer & Learning Designer

Full-stack web developer and learning designer. I spent 4 years as a freelance full-stack developer and 4 years teaching React, JavaScript, HTML/CSS and WordPress to adult learners. Today I design learning paths in web development and AI, grounded in learning science. I founded learn-prompting.fr to make AI practical and accessible, and built the Bluff app to gamify political transparency.

Prompt EngineeringLLMsFull-Stack DevelopmentLearning DesignReact

Published: March 10, 2026Updated: April 24, 2026

Newsletter

Weekly AI Insights

Tools, techniques & news — curated for AI practitioners. Free, no spam.

Free, no spam. Unsubscribe anytime.

FAQ

Quels formats d'image Claude supporte-t-il ?+

Claude supporte JPEG, PNG, GIF (premier frame seulement) et WebP. La taille maximale est de 20 Mo par image, et la résolution est automatiquement ajustée si elle dépasse les limites du modèle.

Comment envoyer une image à Claude via l'API ?+

Deux méthodes : base64 (encoder l'image et l'inclure directement dans la requête) ou URL (fournir un lien public vers l'image). La méthode base64 est plus fiable pour les images locales.

Claude peut-il lire du texte dans les images (OCR) ?+

Oui, Claude excelle en OCR. Il peut lire du texte imprimé, des documents scannés, des captures d'écran et même du texte manuscrit avec une bonne précision. Il comprend aussi la mise en page et la structure.

Combien d'images peut-on envoyer dans une seule requête ?+

Vous pouvez envoyer jusqu'à 100 images dans une seule requête. Chaque image consomme des tokens proportionnellement à sa résolution. Attention au coût sur les requêtes multi-images.

Claude peut-il analyser des graphiques et des diagrammes ?+

Oui, Claude peut lire des graphiques (barres, lignes, camembert), des diagrammes UML, des organigrammes et des schémas. Il identifie les tendances, extrait les valeurs approximatives et décrit les relations visuelles.