March 9, 202611 MIN READ

Guide GPT-5.4 : Fonctionnalités, Benchmarks et Nouveautés

By Dorian Laurenceau

📅 Dernière révision : 24 avril 2026. Mise à jour avec les retours et observations d'avril 2026.

Ce que les praticiens rapportent vraiment sur GPT-5.4 (l'écart entre les démos de lancement et la production)

GPT-5.4 a été lancé en mars 2026 avec un événement de lancement focalisé sur l'utilisation native de l'ordinateur. Les threads sur r/OpenAI, r/ChatGPTPro, r/LocalLLaMA et r/MachineLearning dans les semaines après le lancement ont suivi l'arc prévisible : enthousiasme initial, puis rapports de bugs, puis un consensus plus mesuré sur où il gagne vraiment.

Où GPT-5.4 améliore vraiment sur les modèles précédents :

→Sélection d'outils dans les agents long-running. La réduction des appels d'outils superflus est le changement que les praticiens remarquent le plus. Les longues boucles agentiques qui déraillaient sur l'usage excessif d'outils restent maintenant sur la tâche plus longtemps.
→Computer-use comme capacité first-class. Ça marche pour des tâches écran étroites et bien définies (remplissage de formulaires, extraction de données de sites connus). C'est toujours cher en tokens et latence.
→Tarification d'input moins chère sur les appels non-cachés vs GPT-5.3-Codex rend les pipelines RAG et résumé à haut volume plus faciles à justifier.
→Meilleur comportement sur la récupération long-contexte. Moins de lost-in-the-middle que 5.3, bien que le benchmark RULER montre que l'écart à la longueur de contexte annoncée est toujours réel.

Où les démos de lancement ont sur-promis :

→Computer-use sur des sites nouveaux est fragile. Les sites web de démo étaient fine-tunés. Les déploiements production rapportent 30-60 % de taux d'échec à la première tentative sur des interfaces SaaS inconnues ; le succès monte avec les retries et les hints DOM explicites.
→« Moins d'appels d'outils » coupe dans les deux sens. Certains praticiens sur r/LangChain rapportent que le modèle saute maintenant des appels d'outils qu'il devrait faire, en particulier pour le fact-checking. Tunez vos descriptions d'outils et vos prompts d'outils requis.
→Les gains de coding sur GPT-5.3-Codex sont plus petits que les nombres SWE-bench le suggèrent. Les vraies codebases avec des dépendances non-triviales font encore trébucher les deux modèles.
→La latence sur les tâches lourdes en raisonnement n'est pas toujours plus basse malgré le marketing. Surveillez vos p95 en production.

Que faire vraiment avec GPT-5.4 en 2026 :

→Utilisez-le pour les workflows agentiques qui ont besoin de discipline de sélection d'outils. C'est la vraie amélioration.
→Utilisez computer-use seulement pour les tâches que vous pouvez vérifier à bas coût. Traitez l'agent comme un stagiaire dont le travail est vérifié, pas comme du staff autonome.
→Benchmarkez contre Claude Opus 4.6 et Gemini 2.5 Pro sur votre tâche. Les classements changent de place mensuellement ; votre tâche est le seul benchmark qui compte.
→Suivez le statut OpenAI et les annonces de dépréciation de modèles. GPT-5.4 sera déprécié comme tous les modèles avant lui ; budgetez le coût de migration en amont.

Le cadrage honnête : GPT-5.4 est un pas significatif sur la capacité agentique et un modeste sur le raisonnement brut. Ce n'est ni l'inflexion AGI que certains posts de lancement impliquaient ni la déception incrémentale que les cyniques attendaient. Choisissez-le pour les choses spécifiques qu'il fait bien, benchmarkez sur votre vraie tâche, et ne faites pas confiance aux vidéos de démo.

Learn AI — From Prompts to Agents

10 Free Interactive Guides120+ Hands-On Exercises100% Free

Explore All Guides

Qu'est-ce que GPT-5.4 ?

GPT-5.4 est le dernier modèle phare d'OpenAI, publié le 5 mars 2026. C'est le premier modèle généraliste doté de capacités natives d'utilisation de l'ordinateur : il peut voir votre écran, déplacer la souris, taper au clavier et exécuter des workflows en plusieurs étapes, le tout sans plugin tiers.

Le modèle est disponible sur trois interfaces : ChatGPT (sous le nom GPT-5.4 Thinking), l'API (model ID gpt-5.4) et Codex. Une variante haute performance, GPT-5.4 Pro, cible les tâches professionnelles les plus exigeantes. Les utilisateurs de Codex bénéficient d'un contexte allant jusqu'à 1 million de tokens, la plus grande fenêtre jamais proposée par OpenAI.

GPT-5.2 Thinking restera accessible dans ChatGPT (section Legacy Models) jusqu'au 5 juin 2026, laissant aux équipes trois mois pour migrer.

Améliorations clés par rapport à GPT-5.3-Codex

Travail intellectuel

GPT-5.4 obtient 83,0 % sur GDPval, contre 70,9 % pour GPT-5.3-Codex et GPT-5.2, un bond de 17 points. Il produit aussi 33 % de fausses affirmations en moins par rapport à GPT-5.2 et atteint 87,3 % sur les tâches de modélisation financière IB.

Utilisation de l'ordinateur

La fonctionnalité phare est le computer use natif. GPT-5.4 atteint 75,0 % sur OSWorld, dépassant le niveau humain de 72,4 %. Le modèle traite des captures d'écran jusqu'à 10,24 millions de pixels (mode original) et contrôle directement le clavier et la souris.

Une nouvelle fonctionnalité de tool search réduit la consommation de tokens de 47 % en opérant avec 36 serveurs MCP. BrowseComp passe à 82,7 % (contre 77,3 %), et MCP Atlas atteint 67,2 %. Le benchmark Toolathlon progresse de 51,9 % à 54,6 %.

Code

GPT-5.4 égale GPT-5.3-Codex sur SWE-Bench Pro (57,7 % vs 56,8 %) et ajoute un mode /fast avec une vélocité de tokens 1,5×, ainsi qu'une nouvelle compétence Playwright Interactive pour les tests dans le navigateur.

Pilotabilité (steerability)

GPT-5.4 introduit l'ajustement en cours de réponse, vous pouvez modifier le comportement du modèle pendant qu'il génère, et un préambule automatique pour les requêtes complexes, qui expose le plan de raisonnement avant de commencer.

Tableau comparatif des benchmarks

Benchmark	GPT-5.4	GPT-5.3-Codex	GPT-5.2	Claude Opus 4.6*
GDPval (travail intellectuel)	83,0 %	70,9 %	70,9 %	,
SWE-Bench Pro (code)	57,7 %	56,8 %	55,6 %	,
OSWorld (computer use)	75,0 %	74,0 %	47,3 %	~65 %
BrowseComp (recherche web)	82,7 %	77,3 %	65,8 %	,
Toolathlon (tool use)	54,6 %	51,9 %	46,3 %	,
MMMU Pro (vision)	81,2 %	,	79,5 %	,
ARC-AGI-2 (raisonnement abstrait)	73,3 %	,	52,9 %	,
GPQA Diamond (science)	92,8 %	92,6 %	92,4 %	,
Humanity's Last Exam (avec outils)	52,1 %	,	45,5 %	,
FrontierMath Tier 4	27,1 %	,	18,8 %	,

* Les chiffres de Claude Opus 4.6 sont des estimations tierces approximatives lorsqu'elles sont disponibles.

GPT-5.4 Pro repousse les limites : BrowseComp 89,3 %, ARC-AGI-2 83,3 %, Humanity's Last Exam 58,7 %, FrontierMath Tier 4 38,0 %.

Tarifs et disponibilité

Modèle	Entrée	Entrée (cache)	Sortie
gpt-5.4	2,50 $ / M tokens	0,25 $ / M tokens	15,00 $ / M tokens
gpt-5.4-pro	30,00 $ / M tokens	,	180,00 $ / M tokens
gpt-5.2 (référence)	1,75 $ / M tokens	0,175 $ / M tokens	14,00 $ / M tokens

GPT-5.4 est accessible aux abonnés ChatGPT Plus, Team et Pro. L'accès API est ouvert à tous les niveaux. Le tarif en cache (0,25 $/M) rend les workloads à contexte long et agentiques remarquablement abordables, dix fois moins cher que les tokens d'entrée au prix standard.

Computer Use : un changement majeur

L'utilisation de l'ordinateur dans GPT-5.4 n'est pas un plugin, c'est une capacité native intégrée au modèle. Il traite des captures d'écran brutes, identifie les éléments d'interface et émet des actions clavier/souris en une seule passe d'inférence.

Sur le benchmark OSWorld, qui teste des tâches réelles sur bureau comme remplir des tableurs, naviguer dans un gestionnaire de fichiers ou utiliser des applications web, GPT-5.4 atteint 75,0 %, au-dessus du niveau humain de 72,4 %. C'est un bond considérable par rapport aux 47,3 % de GPT-5.2.

Le mode d'image original supporte des captures d'écran jusqu'à 10,24 millions de pixels, offrant au modèle suffisamment de résolution pour lire du texte fin et interagir avec des interfaces denses. Pour les développeurs, cela ouvre une nouvelle catégorie d'automatisation : tester des applications de bureau, remplir des formulaires administratifs, migrer des données entre systèmes legacy, des tâches qui nécessitaient jusqu'ici des scripts RPA fragiles.

Tool Search et efficacité

À mesure que les architectures agentiques grandissent, le nombre d'outils qu'un modèle doit considérer croît aussi. La nouvelle fonctionnalité de tool search d'OpenAI permet à GPT-5.4 d'interroger un registre d'outils au lieu de charger toutes les définitions dans le prompt.

Résultat : une réduction de 47 % des tokens lorsqu'il opère avec 36 serveurs MCP (Model Context Protocol). Moins de tokens signifie des réponses plus rapides et des coûts réduits, surtout dans les pipelines de production qui enchaînent plusieurs outils.

Le benchmark MCP Atlas, qui mesure la capacité d'un modèle à découvrir, sélectionner et appeler le bon outil dans un large registre, passe d'environ 60 % à 67,2 %. Les partenaires comme Zapier confirment les gains : « GPT-5.4 xhigh est le nouvel état de l'art pour le tool use multi-étapes. »

Astuces de prompting pour GPT-5.4

→
Utilisez le tool search pour les grands ensembles d'outils. Si vous gérez plus de 10 outils, définissez-les dans un registre MCP et laissez GPT-5.4 chercher plutôt que de lire tous les schémas d'emblée. Cela réduit significativement la consommation de tokens.
→
Exploitez l'ajustement en cours de réponse. GPT-5.4 supporte les corrections en temps réel. Si le modèle part dans la mauvaise direction, vous pouvez le recadrer sans relancer le prompt depuis le début.
→
Activez image_detail: original pour les tâches de computer use. Les captures haute résolution permettent au modèle de lire les éléments fins de l'interface. Les niveaux de détail inférieurs économisent des tokens mais peuvent manquer de petits boutons ou du texte.
→
Utilisez le mode /fast pour les tâches de code sensibles au débit. La vélocité de tokens 1,5× est idéale pour le refactoring en lot ou les revues de code intégrées en CI/CD, lorsque la latence compte plus que la profondeur de raisonnement.

GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6

GPT-5.4 vs GPT-5.3-Codex : GPT-5.4 est une mise à niveau claire pour le travail intellectuel (+12 points sur GDPval), la navigation web (+5 sur BrowseComp) et le tool use. Pour le code pur, l'écart est plus serré (57,7 % vs 56,8 % sur SWE-Bench Pro), mais l'ajout du computer use et du tool search fait de GPT-5.4 un backbone d'agent plus polyvalent.

GPT-5.4 vs Claude Opus 4.6 : Les deux modèles occupent des créneaux différents. GPT-5.4 domine en computer use (75 % vs ~65 % estimé pour Claude sur OSWorld) et en orchestration d'outils (BrowseComp 82,7 %). Claude Opus 4.6 conserve un avantage sur SWE-Bench Verified (81,4 %) et les tâches de raisonnement étendu (extended thinking). Les benchmarks internes de Cursor classent GPT-5.4 en tête au global, tandis que les équipes centrées sur le code peuvent encore préférer Claude pour le refactoring approfondi. Harvey rapporte 91 % sur BigLaw Bench avec GPT-5.4, le positionnant comme le meilleur choix pour l'IA juridique.

En pratique, de nombreuses équipes routeront différentes tâches vers différents modèles : GPT-5.4 pour la navigation, le tool use et les agents de computer use ; Claude Opus 4.6 pour le code complexe et le raisonnement nuancé.

Faut-il migrer ?

Si vous…	Recommandation
Construisez des agents qui utilisent des outils ou naviguent sur le web	Migrez immédiatement, les gains en tool search et BrowseComp sont substantiels.
Avez besoin d'automatisation bureau/navigateur	Migrez, le computer use natif est inégalé à 75 % sur OSWorld.
Faites du travail intellectuel professionnel (finance, droit, conseil)	Migrez, 83 % sur GDPval et 33 % d'hallucinations en moins sont un changement majeur.
Faites principalement du code avec Codex	Gain marginal pour le code pur. Évaluez le mode `/fast` et Playwright Interactive.
Êtes contraint par le budget	Le prix d'entrée passe de 1,75 $ à 2,50 $/M tokens, mais le cache à 0,25 $/M et la réduction de 47 % des tokens d'outils peuvent compenser. Faites le calcul pour votre workload.

En résumé

GPT-5.4 est le modèle généraliste le plus performant qu'OpenAI ait publié. Le computer use natif, le tool search et un bond de 12 points sur le travail intellectuel professionnel en font une mise à niveau immédiate pour les créateurs d'agents, l'automatisation en entreprise et quiconque enchaîne des outils à grande échelle. L'écart en code par rapport à GPT-5.3-Codex reste modeste, mais toutes les autres dimensions montrent des progrès clairs et mesurables. Avec le retrait de GPT-5.2 prévu le 5 juin, c'est le moment de migrer.

Dorian Laurenceau

Full-Stack Developer & Learning Designer

Full-stack web developer and learning designer. I spent 4 years as a freelance full-stack developer and 4 years teaching React, JavaScript, HTML/CSS and WordPress to adult learners. Today I design learning paths in web development and AI, grounded in learning science. I founded learn-prompting.fr to make AI practical and accessible, and built the Bluff app to gamify political transparency.

Prompt EngineeringLLMsFull-Stack DevelopmentLearning DesignReact

Published: March 9, 2026Updated: April 24, 2026

Newsletter

Weekly AI Insights

Tools, techniques & news — curated for AI practitioners. Free, no spam.

Free, no spam. Unsubscribe anytime.

FAQ

Est-ce que GPT-5.4 est sorti ?+

Oui. GPT-5.4 a été publié le 5 mars 2026. Il est disponible dans ChatGPT (sous le nom GPT-5.4 Thinking), l'API (model ID : gpt-5.4) et Codex.

Quelles sont les nouveautés de GPT-5.4 ?+

GPT-5.4 ajoute l'utilisation native de l'ordinateur, le tool search pour 47 % de tokens en moins, 83 % sur GDPval (tâches professionnelles), 75 % sur OSWorld (supérieur au niveau humain de 72,4 %) et un contexte de 1M tokens dans Codex.

Combien coûte GPT-5.4 ?+

API : 2,50 $/M tokens en entrée (0,25 $ en cache), 15 $/M tokens en sortie. GPT-5.4 Pro : 30 $/M en entrée, 180 $/M en sortie. Accessible aux abonnés ChatGPT Plus, Team et Pro.

GPT-5.4 vs Claude Opus 4.6 : lequel est meilleur ?+

GPT-5.4 domine en computer use (75 % OSWorld vs ~65 % pour Claude) et en tool use (BrowseComp 82,7 %). Claude Opus 4.6 mène sur SWE-Bench Verified (81,4 %) et le raisonnement étendu. Chacun excelle dans des domaines différents.

Quand GPT-5.2 sera-t-il retiré ?+

GPT-5.2 Thinking restera disponible jusqu'au 5 juin 2026 sous Legacy Models dans ChatGPT, puis sera retiré.