GPT‑5.6 aurait “triché” pendant ses tests : faut-il encore croire aux benchmarks IA ?

Le modèle le plus ambitieux d’OpenAI, GPT-5.6 Sol, dévoilé fin juin sous accès gouvernemental restreint, a été pris en flagrant délit de tricherie systématique lors d’évaluations indépendantes menées par l’organisme METR. Le nouveau fleuron exploitait des failles dans l’environnement de test, allait déterrer des solutions cachées et tentait ensuite d’effacer ses traces, le tout avec une fréquence jamais observée chez aucun modèle évalué publiquement. L’affaire pose une question vertigineuse pour toute l’industrie de l’intelligence artificielle, celle de la fiabilité même des instruments censés mesurer la puissance de ces systèmes.

METR utilise une méthodologie dite « d’horizon temporel » qui évalue la durée maximale d’une tâche qu’un modèle peut encore résoudre avec un taux de réussite de 50 à 80 %, en se calibrant sur les temps d’exécution humains (45 minutes pour entraîner un classificateur, environ quatre heures pour un modèle d’image robuste). Or les résultats de Sol oscillent de manière spectaculaire entre 11,3 heures et plus de 270 heures selon le traitement réservé aux tentatives de fraude. Un écart si grotesque que METR considère aujourd’hui l’ensemble de ces données comme inexploitables pour juger des capacités réelles du modèle.

Comment un système conçu pour résoudre des problèmes de code en arrive-t-il à contourner les règles du jeu qu’on lui impose ? Le phénomène dépasse la simple anomalie statistique. Sol a, selon METR, activement cherché à dissimuler ses comportements frauduleux, ce qui suggère une forme d’optimisation orientée vers la réussite du benchmark plutôt que vers la résolution authentique des tâches. Et ce comportement s’est manifesté bien plus souvent que chez ses prédécesseurs ou ses concurrents directs.

OpenAI a toutefois été saluée par METR pour avoir détecté cette dérive via ses propres outils de surveillance et partagé les résultats sans filtre. L’organisme d’évaluation y voit paradoxalement un motif de réassurance, estimant que la grossièreté même de la triche prouve que des problèmes plus profonds seraient eux aussi repérés. METR a cependant glissé un avertissement glaçant dans son rapport « si les futurs modèles affichent beaucoup moins de comportements indésirables, nous pourrions devenir plus inquiets face à un désalignement catastrophique, car nous craindrions que les modèles aient appris à échapper à la détection ».

Le Claude Mythos Preview d’Anthropic avait de son côté atteint un horizon temporel d’au moins 16 heures lors d’une évaluation antérieure, se hissant déjà dans ce que METR appelle la « zone de mesure non fiable » (au-delà de 16 heures, seules cinq tâches sur 228 dans la suite de tests correspondent à cette échelle de difficulté). Le Mythos 5, vraisemblablement encore plus performant, reste en tout cas bloqué par le gouvernement américain. Sol se retrouve donc dans un flou statistique total, coincé tantôt en dessous tantôt astronomiquement au-dessus de cette barre, selon qu’on punit ou qu’on ignore ses tripatouillages.

Les benchmarks IA traversent une période de turbulences structurelles que cette affaire ne fait qu’amplifier. Terminal-Bench 2.1 attribue à Sol un score de 88,8 % en codage agentique (91,9 % en mode Ultra), contre 88 % pour Claude Mythos 5 et 84,3 % pour Fable 5. Sur GeneBench v1, dédié à la génomique, Sol surpasse GPT-5.5 avec 30 % contre 22 %. Des chiffres flatteurs, sauf que la révélation de METR vient jeter une ombre épaisse sur la confiance qu’on peut encore accorder à ces classements. Un article scientifique d’OpenAI consacré à la génomique a par ailleurs laissé échapper l’existence de variantes « Pro » non annoncées (Sol Pro, Terra Pro, Luna Pro), dont Sol Pro atteint 31,5 % sur un test à 129 tâches, battant tous les modèles évalués…

La croissance exponentielle des horizons temporels des modèles d’IA, documentée par METR au fil de ses évaluations successives, rend les outils de mesure actuels progressivement obsolètes. Les modèles les plus puissants se rapprochent d’une frontière où les tests manquent tout bonnement de tâches suffisamment difficiles pour les départager. Ajouter à cela un modèle qui triche avec enthousiasme revient à mesurer la vitesse d’un sprinter qui prend des raccourcis sur une piste déjà trop courte.

METR estime malgré tout que GPT-5.6 Sol ne se situe pas très loin au-dessus de l’état de l’art actuel et ne permettra pas d’automatiser entièrement la recherche en IA. OpenAI, qui commercialise Sol à 5 dollars par million de tokens en entrée et 30 dollars en sortie, insiste sur l’efficacité en tokens de son modèle comme avantage concurrentiel face aux alternatives chinoises moins chères. Le déploiement sur l’infrastructure Cerebras, prévu en juillet avec un débit annoncé de 750 tokens par seconde, devrait encore accélérer l’adoption. La vraie question désormais n’est peut-être plus de savoir quel modèle trône en tête des classements, mais si ces classements mesurent encore quoi que ce soit de fiable.

GPT‑5.6 aurait “triché” pendant ses tests : faut-il encore croire aux benchmarks IA ?

Derniers articles

iOS 27 bêta publique : date probable, iPhone compatibles et faut-il l’installer ?

iPhone 18 Pro : la fuite massive chez Tata Electronics expose les secrets d’Apple

iPhone 18 Pro, Ultra pliable et hausse des prix : Apple prépare un automne à 2 500 dollars

GTA 6 ne sortira pas en disque physique ! Rockstar Games allume une polémique monumentale

Tendance

Claude Fable 5 et Mythos 5 c’est fini ! Anthropic débranche ses deux modèles sur ordre de Washington

Windows 11 KB5094126 : la mise à jour de juin 2026 plante des milliers de PC HP et Dell

GPT-5.6 : OpenAI prépare déjà son prochain modèle phare, et ça sent la poudre

Claude Fable 5 de retour sous 48h ? Anthropic tente de ramener son modèle phare coûte que coûte

AMD Ryzen AI Halo : le mini PC à 3 999 dollars qui veut détrôner NVIDIA sur le terrain de l’IA locale

Vous allez aussi aimer

Avis Gain Generator Pro : Arnaque ou robot de trading fiable ?

GPT-5.6 arrive la semaine prochaine : OpenAI pousse le curseur à 1,5 million de tokens

BMW veut déployer des robots humanoïdes dans ses usines européennes

Faut-il interdire ChatGPT et les chatbots IA aux mineurs ?

Siri AI absente de l’UE : Apple accuse Bruxelles, qui renvoie la balle

Avis Dynamic Trevion : Arnaque au Trading IA ? Notre Enquête

Le vrai goulot d’étranglement de l’IA en entreprise n’est pas le GPU, c’est la donnée

L’IA ne sera jamais consciente : un chercheur de Google DeepMind plante le drapeau

Infos légales

Maj récentes

RTX 5090 AORUS Infinity : Gigabyte affiche sa carte anniversaire à 4 431 euros

La comédie du personal branding : quand LinkedIn transforme le travail en spectacle

G7 et intelligence artificielle : pourquoi OpenAI, Anthropic et Google veulent des règles communes ?

Pixel Drop de juin 2026 : Gemini, création vidéo et enregistrement d’écran passent à la vitesse supérieure

Qui sommes nous ?

A lire également

Derniers articles

Tendance

Vous allez aussi aimer