Claude Opus 4.7 trône désormais au sommet de 12 classements sur 22, et personne dans l’industrie ne peut feindre l’indifférence. Le modèle d’Anthropic a littéralement pulvérisé la concurrence sur les épreuves appliquées, celles qui comptent dans le monde réel, là où les entreprises dépensent des millions. GPT-5.4, le dernier flagship d’OpenAI, riposte avec une puissance de raisonnement mathématique et une capacité de preuve formelle qui forcent le respect. Deux philosophies, deux architectures, deux visions de l’intelligence artificielle qui s’affrontent dans un combat de haute voltige.
Le terrain de jeu : vingt-deux épreuves et zéro pitié
Les benchmarks de 2026 ne ressemblent plus aux QCM gentillets d’antan. On parle ici de SWE-bench (résolution autonome de bugs dans des dépôts GitHub réels), de Finance Agent (pilotage d’opérations financières complexes), de ProofBench (démonstration mathématique formelle). Le terrain est vaste, hétérogène, parfois impitoyable.
Opus 4.7 a décroché la première place dans des catégories aussi variées que le Vals Index (71.47%), le Vibe Code Bench (71%), le SWE-bench (82%), le Terminal-Bench 2.0 (68.54%) ou encore le SAGE (56.10%). Cette domination transversale trahit un modèle taillé pour l’exécution concrète, pour la tâche qui finit entre les mains d’un développeur, d’un analyste financier, d’un juriste.
GPT-5.4 affiche de son côté des scores bruts parfois vertigineux. 96.67% sur AIME (compétition mathématique de haut niveau), 91.67% sur GPQA (questions scientifiques de niveau doctoral), et surtout une première place absolue sur ProofBench (56%) et IOI (67.83%, les Olympiades internationales d’informatique). Le modèle d’OpenAI reste bien ancré dans la stratosphère du raisonnement pur.
Là où Opus 4.7 écrase OpenAI (mais trébuche sur un arbitre caché)
Le tableau ci-dessous révèle l’ampleur du fossé entre les deux modèles stars sur les benchmarks professionnels appliqués.
| Benchmark | GPT-5.4 | Opus 4.7 | Écart (vs GPT) |
|---|---|---|---|
| SWE-bench | 78.20% | 82.00% | +3.8 pts |
| Finance Agent | 57.15% | 64.37% | +7.2 pts |
| MedCode | 41.29% | 54.86% | +13.6 pts |
| SAGE | 43.31% | 56.10% | +12.8 pts |
| Terminal-Bench 2.0 | 58.43% | 68.54% | +10.1 pts |
| Vals Index | 64.77% | 71.47% | +6.7 pts |
L’écart sur MedCode atteint un gouffre de 13.6 points. Treize points et demi sur un benchmark de codification médicale, c’est la différence entre un assistant qui aide réellement un médecin et un outil qui bégaie devant la terminologie CIM-10. SAGE, le benchmark d’analyse scientifique, affiche un delta comparable de presque 13 points en faveur d’Opus 4.7.
La performance sur SWE-bench mérite qu’on s’y attarde. Avec 82% de résolution autonome de tickets logiciels (première place sur 41 modèles testés), Opus 4.7 s’est vraisemblablement imposé comme le meilleur agent de développement logiciel disponible aujourd’hui. GPT-5.4 reste à 78.20%, troisième du classement, honorable sans doute… mais troisième.
Le MMLU Pro, ce marathon encyclopédique, penche aussi nettement vers Anthropic avec 89.87% contre 87.48%. Deux points et demi d’écart sur un benchmark aussi large trahissent une robustesse de connaissances générales supérieure.
La riposte foudroyante de GPT-5.4 sur le raisonnement formel
OpenAI n’a cependant pas dit son dernier mot, et c’est précisément dans les épreuves les plus exigeantes intellectuellement que GPT-5.4 montre son meilleur visage. ProofBench, le benchmark de démonstration mathématique formelle, sacre GPT-5.4 premier sur 25 modèles avec 56%, deux points devant Opus 4.7 (54%). IOI, qui simule les Olympiades internationales d’informatique, couronne également GPT-5.4 avec 67.83%, premier sur 50 concurrents.
AIME, la compétition mathématique américaine d’élite, voit GPT-5.4 frôler la perfection à 96.67% (cinquième rang global, mais devant Opus 4.7 à 96.25%). GPQA, le test de questions scientifiques graduées, confirme cette tendance avec 91.67% pour OpenAI contre 89.90% pour Anthropic.
Le profil de GPT-5.4 dessine celui d’un mathématicien prodige, d’un logicien redoutable, d’un cerveau qui excelle quand la tâche exige une chaîne de raisonnement longue et formellement rigoureuse. MMMU Pro (évaluation multimodale de niveau expert) penche d’ailleurs en sa faveur avec 87.51% contre 85.55%, ce qui suggère une capacité d’analyse visuelle et conceptuelle légèrement plus affûtée.
Les deux modèles se retrouvent au coude-à-coude sur LiveCodeBench (84.14% contre 84.69%), sur LegalBench où GPT-5.4 affiche 86.04% (quatrième rang), et sur MedQA où le modèle d’OpenAI atteint 96.09%. La parité existe bel et bien dans certaines zones, et le choix entre les deux dépendra alors du cas d’usage spécifique.
Deux philosophies, et un arbitre selon votre métier
Qui gagne, alors ? La question est en réalité mal posée. Un développeur qui cherche un copilote pour résoudre des bugs en production choisira Opus 4.7 sans hésiter, fort de ses 82% sur SWE-bench et de sa domination sur Terminal-Bench. Un chercheur en mathématiques, un participant aux concours algorithmiques, un physicien théoricien se tournera spontanément vers GPT-5.4 et ses premières places sur ProofBench et IOI.
Le secteur médical offre un cas d’école fascinant. GPT-5.4 domine sur MedQA (96.09%) et MedScribe (77.55%, bien que seulement 24e au classement global). Mais pour la codification pure (MedCode), si Opus 4.7 (54.86%) humilie OpenAI (41.29%), tous deux doivent s’incliner face à la précision chirurgicale de Google Gemini 3.1 Pro. La médecine a besoin du diagnostic, de la codification, et visiblement, de la Silicon Valley tout entière pour orchestrer le tout.
La finance penche fortement vers Opus 4.7, premier sur Finance Agent (64.37%) et MortgageTax (70.27%), avec un CorpFin légèrement supérieur (66.08% contre 65.27%). Le droit est plus mitigé, GPT-5.4 se classant quatrième sur LegalBench (86.04%) tandis qu’Opus 4.7 domine CaseLaw avec 68.38% contre 63.77%.
Le vrai match se joue dans les usages
La guerre des benchmarks a produit en ce printemps 2026 un résultat que personne n’avait anticipé il y a encore 18 mois. Anthropic, longtemps perçu comme le petit challenger, détient désormais le modèle le plus performant en conditions opérationnelles réelles. OpenAI conserve une avance sur le raisonnement abstrait et les épreuves olympiques, du moins pour l’instant.
Aucun des deux modèles ne peut revendiquer une supériorité totale. Opus 4.7 accumule davantage de premières places (12 contre 2 pour GPT-5.4) et affiche des marges parfois spectaculaires sur les tâches professionnelles. GPT-5.4 tient fermement le terrain du raisonnement formel, cette frontière où l’intelligence artificielle touche à la pensée mathématique pure.
La prochaine salve viendra sans doute avant le début de l’été avec potentiellement un Opus 4.8 et un GPT-5.5 qui pourrait chambouler le rapport de force. N’oublions pas non plus que Google avec Gemini est en embuscade, moins prolifique en terme de release mais qui a l’habitude de frapper très fort à chaque nouvelle mouture.

