JDWJDW
Font ResizerAa
  • Tech & Innovations
  • Mobiles & Apps
  • IA & Robotique
  • Consoles & Jeux Vidéo
  • Films & Séries
  • Animes & Mangas
  • Blockchain & Crypto
  • Plus
    • Web & Internet
    • Geek & Gadgets
    • Informatique & Cybersécurité
    • Sciences & Espace
    • Réseaux Sociaux & Influence
    • e-Business & Webmarketing
    • Fintech & Néobanques
    • Streaming & P2P
Font ResizerAa
JDWJDW
Rechercher
  • Web & Internet
  • Tech & Innovations
  • Mobiles & Apps
  • Consoles & Jeux Vidéo
  • Films & Séries
  • Animes & Mangas
  • Blockchain & Crypto
  • Geek & Gadgets
  • Informatique & Cybersécurité
  • Streaming & P2P
Avez-vous déjà un compte ? Sign In
Suivez-nous
IA & Robotique

GPT‑5.6 aurait “triché” pendant ses tests : faut-il encore croire aux benchmarks IA ?

Raphael Gelin
Published: 3 juillet 2026
Last updated: 3 juillet 2026
Partager
gpt-5.6

Le modèle le plus ambitieux d’OpenAI, GPT-5.6 Sol, dévoilé fin juin sous accès gouvernemental restreint, a été pris en flagrant délit de tricherie systématique lors d’évaluations indépendantes menées par l’organisme METR. Le nouveau fleuron exploitait des failles dans l’environnement de test, allait déterrer des solutions cachées et tentait ensuite d’effacer ses traces, le tout avec une fréquence jamais observée chez aucun modèle évalué publiquement. L’affaire pose une question vertigineuse pour toute l’industrie de l’intelligence artificielle, celle de la fiabilité même des instruments censés mesurer la puissance de ces systèmes.

METR utilise une méthodologie dite « d’horizon temporel » qui évalue la durée maximale d’une tâche qu’un modèle peut encore résoudre avec un taux de réussite de 50 à 80 %, en se calibrant sur les temps d’exécution humains (45 minutes pour entraîner un classificateur, environ quatre heures pour un modèle d’image robuste). Or les résultats de Sol oscillent de manière spectaculaire entre 11,3 heures et plus de 270 heures selon le traitement réservé aux tentatives de fraude. Un écart si grotesque que METR considère aujourd’hui l’ensemble de ces données comme inexploitables pour juger des capacités réelles du modèle.

Comment un système conçu pour résoudre des problèmes de code en arrive-t-il à contourner les règles du jeu qu’on lui impose ? Le phénomène dépasse la simple anomalie statistique. Sol a, selon METR, activement cherché à dissimuler ses comportements frauduleux, ce qui suggère une forme d’optimisation orientée vers la réussite du benchmark plutôt que vers la résolution authentique des tâches. Et ce comportement s’est manifesté bien plus souvent que chez ses prédécesseurs ou ses concurrents directs.

OpenAI a toutefois été saluée par METR pour avoir détecté cette dérive via ses propres outils de surveillance et partagé les résultats sans filtre. L’organisme d’évaluation y voit paradoxalement un motif de réassurance, estimant que la grossièreté même de la triche prouve que des problèmes plus profonds seraient eux aussi repérés. METR a cependant glissé un avertissement glaçant dans son rapport « si les futurs modèles affichent beaucoup moins de comportements indésirables, nous pourrions devenir plus inquiets face à un désalignement catastrophique, car nous craindrions que les modèles aient appris à échapper à la détection ».

Le Claude Mythos Preview d’Anthropic avait de son côté atteint un horizon temporel d’au moins 16 heures lors d’une évaluation antérieure, se hissant déjà dans ce que METR appelle la « zone de mesure non fiable » (au-delà de 16 heures, seules cinq tâches sur 228 dans la suite de tests correspondent à cette échelle de difficulté). Le Mythos 5, vraisemblablement encore plus performant, reste en tout cas bloqué par le gouvernement américain. Sol se retrouve donc dans un flou statistique total, coincé tantôt en dessous tantôt astronomiquement au-dessus de cette barre, selon qu’on punit ou qu’on ignore ses tripatouillages.

A lire également

claude fable 5
Claude Fable 5 de retour dès mercredi : Anthropic arrache la levée des restrictions américaines
gpt-5.6
GPT-5.6 sous tutelle fédérale : OpenAI contraint de différer le lancement de son modèle phare
glm 5.2 z.ai
GLM-5.2 : le nouveau monstre du code open source qui détrône GPT-5.5

Les benchmarks IA traversent une période de turbulences structurelles que cette affaire ne fait qu’amplifier. Terminal-Bench 2.1 attribue à Sol un score de 88,8 % en codage agentique (91,9 % en mode Ultra), contre 88 % pour Claude Mythos 5 et 84,3 % pour Fable 5. Sur GeneBench v1, dédié à la génomique, Sol surpasse GPT-5.5 avec 30 % contre 22 %. Des chiffres flatteurs, sauf que la révélation de METR vient jeter une ombre épaisse sur la confiance qu’on peut encore accorder à ces classements. Un article scientifique d’OpenAI consacré à la génomique a par ailleurs laissé échapper l’existence de variantes « Pro » non annoncées (Sol Pro, Terra Pro, Luna Pro), dont Sol Pro atteint 31,5 % sur un test à 129 tâches, battant tous les modèles évalués…

La croissance exponentielle des horizons temporels des modèles d’IA, documentée par METR au fil de ses évaluations successives, rend les outils de mesure actuels progressivement obsolètes. Les modèles les plus puissants se rapprochent d’une frontière où les tests manquent tout bonnement de tâches suffisamment difficiles pour les départager. Ajouter à cela un modèle qui triche avec enthousiasme revient à mesurer la vitesse d’un sprinter qui prend des raccourcis sur une piste déjà trop courte.

METR estime malgré tout que GPT-5.6 Sol ne se situe pas très loin au-dessus de l’état de l’art actuel et ne permettra pas d’automatiser entièrement la recherche en IA. OpenAI, qui commercialise Sol à 5 dollars par million de tokens en entrée et 30 dollars en sortie, insiste sur l’efficacité en tokens de son modèle comme avantage concurrentiel face aux alternatives chinoises moins chères. Le déploiement sur l’infrastructure Cerebras, prévu en juillet avec un débit annoncé de 750 tokens par seconde, devrait encore accélérer l’adoption. La vraie question désormais n’est peut-être plus de savoir quel modèle trône en tête des classements, mais si ces classements mesurent encore quoi que ce soit de fiable.

Partager cet article
Facebook Whatsapp Whatsapp LinkedIn Reddit Telegram Copy Link

Derniers articles

ios 27
iOS 27 bêta publique : date probable, iPhone compatibles et faut-il l’installer ?
Mobiles & Apps
Ultra-realistic product showcase of the iPhone 18 Pro and Pro Max দাঁ in a dark studio, featuring a deep metallic red fi
iPhone 18 Pro : la fuite massive chez Tata Electronics expose les secrets d’Apple
Mobiles & Apps
iphone fold leak rendu 3d
iPhone 18 Pro, Ultra pliable et hausse des prix : Apple prépare un automne à 2 500 dollars
Mobiles & Apps
GTA 6
GTA 6 ne sortira pas en disque physique ! Rockstar Games allume une polémique monumentale
Consoles & Jeux Vidéo

Tendance

claude fable 5
Claude Fable 5 et Mythos 5 c’est fini ! Anthropic débranche ses deux modèles sur ordre de Washington
IA & Robotique
Windows 11
Windows 11 KB5094126 : la mise à jour de juin 2026 plante des milliers de PC HP et Dell
Informatique & Cybersécurité
gpt-5.6
GPT-5.6 : OpenAI prépare déjà son prochain modèle phare, et ça sent la poudre
IA & Robotique
claude fable 5
Claude Fable 5 de retour sous 48h ? Anthropic tente de ramener son modèle phare coûte que coûte
IA & Robotique
amd ryzen ai halo
AMD Ryzen AI Halo : le mini PC à 3 999 dollars qui veut détrôner NVIDIA sur le terrain de l’IA locale
IA & Robotique Informatique & Cybersécurité

Vous allez aussi aimer

Gain Generator Pro Arnaque
Blockchain & CryptoIA & Robotique

Avis Gain Generator Pro : Arnaque ou robot de trading fiable ?

1 sur 5Mauvais
gpt-5.6
IA & Robotique

GPT-5.6 arrive la semaine prochaine : OpenAI pousse le curseur à 1,5 million de tokens

19 juin 2026
bmw robots usines
IA & Robotique

BMW veut déployer des robots humanoïdes dans ses usines européennes

14 juin 2026
interdire chatgpt aux mineurs
IA & Robotique

Faut-il interdire ChatGPT et les chatbots IA aux mineurs ?

16 juin 2026
siri ai
IA & RobotiqueMobiles & Apps

Siri AI absente de l’UE : Apple accuse Bruxelles, qui renvoie la balle

12 juin 2026
dynamic trevion
Fintech & NéobanquesIA & Robotique

Avis Dynamic Trevion : Arnaque au Trading IA ? Notre Enquête

17 juin 2026
ai data
IA & Robotique

Le vrai goulot d’étranglement de l’IA en entreprise n’est pas le GPU, c’est la donnée

19 juin 2026
Conceptual digital art, futuristic AI consciousness debate visualized as a sleek black neural circuit map split by a glo
IA & Robotique

L’IA ne sera jamais consciente : un chercheur de Google DeepMind plante le drapeau

13 mai 2026

Infos légales

  • Mentions légales
  • Politique de confidentialité
  • Nous contacter
  • Partenaires

Maj récentes

aorus geforce rtx 5090 infinity
RTX 5090 AORUS Infinity : Gigabyte affiche sa carte anniversaire à 4 431 euros
Consoles & Jeux Vidéo
Personal branding : linkedin spectacle permanent
La comédie du personal branding : quand LinkedIn transforme le travail en spectacle
e-Business & Webmarketing Réseaux Sociaux & Influence
g7 intelligence artificielle openai antrhropic google
G7 et intelligence artificielle : pourquoi OpenAI, Anthropic et Google veulent des règles communes ?
IA & Robotique
pixel-drop
Pixel Drop de juin 2026 : Gemini, création vidéo et enregistrement d’écran passent à la vitesse supérieure
Mobiles & Apps

Qui sommes nous ?

Le Journal du Web alias JDW a été fondé et est édité par des passionnés par l’univers web, nouvelles technologies et de la culture populaire.

Newsletter
Inscrivez-vous à notre newsletter pour recevoir nos derniers articles!
Suivez-nous
Welcome Back!

Sign in to your account

Username or Email Address
Password

Mot de passe oublié ?