Guide GPT-5.4 : Fonctionnalités, Benchmarks et Nouveautés (Mars 2026)
By LearnIA
Qu'est-ce que GPT-5.4 ?
GPT-5.4 est le dernier modèle phare d'OpenAI, publié le 5 mars 2026. C'est le premier modèle généraliste doté de capacités natives d'utilisation de l'ordinateur : il peut voir votre écran, déplacer la souris, taper au clavier et exécuter des workflows en plusieurs étapes — le tout sans plugin tiers.
Le modèle est disponible sur trois interfaces : ChatGPT (sous le nom GPT-5.4 Thinking), l'API (model ID gpt-5.4) et Codex. Une variante haute performance, GPT-5.4 Pro, cible les tâches professionnelles les plus exigeantes. Les utilisateurs de Codex bénéficient d'un contexte allant jusqu'à 1 million de tokens, la plus grande fenêtre jamais proposée par OpenAI.
GPT-5.2 Thinking restera accessible dans ChatGPT (section Legacy Models) jusqu'au 5 juin 2026, laissant aux équipes trois mois pour migrer.
Learn AI — From Prompts to Agents
Améliorations clés par rapport à GPT-5.3-Codex
Travail intellectuel
GPT-5.4 obtient 83,0 % sur GDPval, contre 70,9 % pour GPT-5.3-Codex et GPT-5.2 — un bond de 17 points. Il produit aussi 33 % de fausses affirmations en moins par rapport à GPT-5.2 et atteint 87,3 % sur les tâches de modélisation financière IB.
Utilisation de l'ordinateur
La fonctionnalité phare est le computer use natif. GPT-5.4 atteint 75,0 % sur OSWorld, dépassant le niveau humain de 72,4 %. Le modèle traite des captures d'écran jusqu'à 10,24 millions de pixels (mode original) et contrôle directement le clavier et la souris.
Tool use et navigation web
Une nouvelle fonctionnalité de tool search réduit la consommation de tokens de 47 % en opérant avec 36 serveurs MCP. BrowseComp passe à 82,7 % (contre 77,3 %), et MCP Atlas atteint 67,2 %. Le benchmark Toolathlon progresse de 51,9 % à 54,6 %.
Code
GPT-5.4 égale GPT-5.3-Codex sur SWE-Bench Pro (57,7 % vs 56,8 %) et ajoute un mode /fast avec une vélocité de tokens 1,5×, ainsi qu'une nouvelle compétence Playwright Interactive pour les tests dans le navigateur.
Pilotabilité (steerability)
GPT-5.4 introduit l'ajustement en cours de réponse — vous pouvez modifier le comportement du modèle pendant qu'il génère — et un préambule automatique pour les requêtes complexes, qui expose le plan de raisonnement avant de commencer.
Tableau comparatif des benchmarks
| Benchmark | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 | Claude Opus 4.6* |
|---|---|---|---|---|
| GDPval (travail intellectuel) | 83,0 % | 70,9 % | 70,9 % | — |
| SWE-Bench Pro (code) | 57,7 % | 56,8 % | 55,6 % | — |
| OSWorld (computer use) | 75,0 % | 74,0 % | 47,3 % | ~65 % |
| BrowseComp (recherche web) | 82,7 % | 77,3 % | 65,8 % | — |
| Toolathlon (tool use) | 54,6 % | 51,9 % | 46,3 % | — |
| MMMU Pro (vision) | 81,2 % | — | 79,5 % | — |
| ARC-AGI-2 (raisonnement abstrait) | 73,3 % | — | 52,9 % | — |
| GPQA Diamond (science) | 92,8 % | 92,6 % | 92,4 % | — |
| Humanity's Last Exam (avec outils) | 52,1 % | — | 45,5 % | — |
| FrontierMath Tier 4 | 27,1 % | — | 18,8 % | — |
* Les chiffres de Claude Opus 4.6 sont des estimations tierces approximatives lorsqu'elles sont disponibles.
GPT-5.4 Pro repousse les limites : BrowseComp 89,3 %, ARC-AGI-2 83,3 %, Humanity's Last Exam 58,7 %, FrontierMath Tier 4 38,0 %.
Tarifs et disponibilité
| Modèle | Entrée | Entrée (cache) | Sortie |
|---|---|---|---|
| gpt-5.4 | 2,50 $ / M tokens | 0,25 $ / M tokens | 15,00 $ / M tokens |
| gpt-5.4-pro | 30,00 $ / M tokens | — | 180,00 $ / M tokens |
| gpt-5.2 (référence) | 1,75 $ / M tokens | 0,175 $ / M tokens | 14,00 $ / M tokens |
GPT-5.4 est accessible aux abonnés ChatGPT Plus, Team et Pro. L'accès API est ouvert à tous les niveaux. Le tarif en cache (0,25 $/M) rend les workloads à contexte long et agentiques remarquablement abordables — dix fois moins cher que les tokens d'entrée au prix standard.
Computer Use : un changement majeur
L'utilisation de l'ordinateur dans GPT-5.4 n'est pas un plugin — c'est une capacité native intégrée au modèle. Il traite des captures d'écran brutes, identifie les éléments d'interface et émet des actions clavier/souris en une seule passe d'inférence.
Sur le benchmark OSWorld — qui teste des tâches réelles sur bureau comme remplir des tableurs, naviguer dans un gestionnaire de fichiers ou utiliser des applications web — GPT-5.4 atteint 75,0 %, au-dessus du niveau humain de 72,4 %. C'est un bond considérable par rapport aux 47,3 % de GPT-5.2.
Le mode d'image original supporte des captures d'écran jusqu'à 10,24 millions de pixels, offrant au modèle suffisamment de résolution pour lire du texte fin et interagir avec des interfaces denses. Pour les développeurs, cela ouvre une nouvelle catégorie d'automatisation : tester des applications de bureau, remplir des formulaires administratifs, migrer des données entre systèmes legacy — des tâches qui nécessitaient jusqu'ici des scripts RPA fragiles.
Tool Search et efficacité
À mesure que les architectures agentiques grandissent, le nombre d'outils qu'un modèle doit considérer croît aussi. La nouvelle fonctionnalité de tool search d'OpenAI permet à GPT-5.4 d'interroger un registre d'outils au lieu de charger toutes les définitions dans le prompt.
Résultat : une réduction de 47 % des tokens lorsqu'il opère avec 36 serveurs MCP (Model Context Protocol). Moins de tokens signifie des réponses plus rapides et des coûts réduits, surtout dans les pipelines de production qui enchaînent plusieurs outils.
Le benchmark MCP Atlas — qui mesure la capacité d'un modèle à découvrir, sélectionner et appeler le bon outil dans un large registre — passe d'environ 60 % à 67,2 %. Les partenaires comme Zapier confirment les gains : « GPT-5.4 xhigh est le nouvel état de l'art pour le tool use multi-étapes. »
Astuces de prompting pour GPT-5.4
- →
Utilisez le tool search pour les grands ensembles d'outils. Si vous gérez plus de 10 outils, définissez-les dans un registre MCP et laissez GPT-5.4 chercher plutôt que de lire tous les schémas d'emblée. Cela réduit significativement la consommation de tokens.
- →
Exploitez l'ajustement en cours de réponse. GPT-5.4 supporte les corrections en temps réel. Si le modèle part dans la mauvaise direction, vous pouvez le recadrer sans relancer le prompt depuis le début.
- →
Activez
image_detail: originalpour les tâches de computer use. Les captures haute résolution permettent au modèle de lire les éléments fins de l'interface. Les niveaux de détail inférieurs économisent des tokens mais peuvent manquer de petits boutons ou du texte. - →
Utilisez le mode
/fastpour les tâches de code sensibles au débit. La vélocité de tokens 1,5× est idéale pour le refactoring en lot ou les revues de code intégrées en CI/CD, lorsque la latence compte plus que la profondeur de raisonnement.
GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6
GPT-5.4 vs GPT-5.3-Codex : GPT-5.4 est une mise à niveau claire pour le travail intellectuel (+12 points sur GDPval), la navigation web (+5 sur BrowseComp) et le tool use. Pour le code pur, l'écart est plus serré (57,7 % vs 56,8 % sur SWE-Bench Pro), mais l'ajout du computer use et du tool search fait de GPT-5.4 un backbone d'agent plus polyvalent.
GPT-5.4 vs Claude Opus 4.6 : Les deux modèles occupent des créneaux différents. GPT-5.4 domine en computer use (75 % vs ~65 % estimé pour Claude sur OSWorld) et en orchestration d'outils (BrowseComp 82,7 %). Claude Opus 4.6 conserve un avantage sur SWE-Bench Verified (81,4 %) et les tâches de raisonnement étendu (extended thinking). Les benchmarks internes de Cursor classent GPT-5.4 en tête au global, tandis que les équipes centrées sur le code peuvent encore préférer Claude pour le refactoring approfondi. Harvey rapporte 91 % sur BigLaw Bench avec GPT-5.4, le positionnant comme le meilleur choix pour l'IA juridique.
En pratique, de nombreuses équipes routeront différentes tâches vers différents modèles : GPT-5.4 pour la navigation, le tool use et les agents de computer use ; Claude Opus 4.6 pour le code complexe et le raisonnement nuancé.
Faut-il migrer ?
| Si vous… | Recommandation |
|---|---|
| Construisez des agents qui utilisent des outils ou naviguent sur le web | Migrez immédiatement — les gains en tool search et BrowseComp sont substantiels. |
| Avez besoin d'automatisation bureau/navigateur | Migrez — le computer use natif est inégalé à 75 % sur OSWorld. |
| Faites du travail intellectuel professionnel (finance, droit, conseil) | Migrez — 83 % sur GDPval et 33 % d'hallucinations en moins sont un changement majeur. |
| Faites principalement du code avec Codex | Gain marginal pour le code pur. Évaluez le mode /fast et Playwright Interactive. |
| Êtes contraint par le budget | Le prix d'entrée passe de 1,75 $ à 2,50 $/M tokens, mais le cache à 0,25 $/M et la réduction de 47 % des tokens d'outils peuvent compenser. Faites le calcul pour votre workload. |
En résumé
GPT-5.4 est le modèle généraliste le plus performant qu'OpenAI ait publié. Le computer use natif, le tool search et un bond de 12 points sur le travail intellectuel professionnel en font une mise à niveau immédiate pour les créateurs d'agents, l'automatisation en entreprise et quiconque enchaîne des outils à grande échelle. L'écart en code par rapport à GPT-5.3-Codex reste modeste, mais toutes les autres dimensions montrent des progrès clairs et mesurables. Avec le retrait de GPT-5.2 prévu le 5 juin, c'est le moment de migrer.
Weekly AI Insights
Tools, techniques & news — curated for AI practitioners. Free, no spam.
Free, no spam. Unsubscribe anytime.
→Related Articles
FAQ
Est-ce que GPT-5.4 est sorti ?+
Oui. GPT-5.4 a été publié le 5 mars 2026. Il est disponible dans ChatGPT (sous le nom GPT-5.4 Thinking), l'API (model ID : gpt-5.4) et Codex.
Quelles sont les nouveautés de GPT-5.4 ?+
GPT-5.4 ajoute l'utilisation native de l'ordinateur, le tool search pour 47 % de tokens en moins, 83 % sur GDPval (tâches professionnelles), 75 % sur OSWorld (supérieur au niveau humain de 72,4 %) et un contexte de 1M tokens dans Codex.
Combien coûte GPT-5.4 ?+
API : 2,50 $/M tokens en entrée (0,25 $ en cache), 15 $/M tokens en sortie. GPT-5.4 Pro : 30 $/M en entrée, 180 $/M en sortie. Accessible aux abonnés ChatGPT Plus, Team et Pro.
GPT-5.4 vs Claude Opus 4.6 : lequel est meilleur ?+
GPT-5.4 domine en computer use (75 % OSWorld vs ~65 % pour Claude) et en tool use (BrowseComp 82,7 %). Claude Opus 4.6 mène sur SWE-Bench Verified (81,4 %) et le raisonnement étendu. Chacun excelle dans des domaines différents.
Quand GPT-5.2 sera-t-il retiré ?+
GPT-5.2 Thinking restera disponible jusqu'au 5 juin 2026 sous Legacy Models dans ChatGPT, puis sera retiré.