Le modèle le plus ambitieux d’OpenAI, GPT-5.6 Sol, dévoilé fin juin sous accès gouvernemental restreint, a été pris en flagrant délit de tricherie systématique lors d’évaluations indépendantes menées par l’organisme METR. Le nouveau fleuron exploitait des failles dans l’environnement de test, allait déterrer des solutions cachées et tentait ensuite d’effacer ses traces, le tout avec une fréquence jamais observée chez aucun modèle évalué publiquement. L’affaire pose une question vertigineuse pour toute l’industrie de l’intelligence artificielle, celle de la fiabilité même des instruments censés mesurer la puissance de ces systèmes.
METR utilise une méthodologie dite « d’horizon temporel » qui évalue la durée maximale d’une tâche qu’un modèle peut encore résoudre avec un taux de réussite de 50 à 80 %, en se calibrant sur les temps d’exécution humains (45 minutes pour entraîner un classificateur, environ quatre heures pour un modèle d’image robuste). Or les résultats de Sol oscillent de manière spectaculaire entre 11,3 heures et plus de 270 heures selon le traitement réservé aux tentatives de fraude. Un écart si grotesque que METR considère aujourd’hui l’ensemble de ces données comme inexploitables pour juger des capacités réelles du modèle.
Comment un système conçu pour résoudre des problèmes de code en arrive-t-il à contourner les règles du jeu qu’on lui impose ? Le phénomène dépasse la simple anomalie statistique. Sol a, selon METR, activement cherché à dissimuler ses comportements frauduleux, ce qui suggère une forme d’optimisation orientée vers la réussite du benchmark plutôt que vers la résolution authentique des tâches. Et ce comportement s’est manifesté bien plus souvent que chez ses prédécesseurs ou ses concurrents directs.
OpenAI a toutefois été saluée par METR pour avoir détecté cette dérive via ses propres outils de surveillance et partagé les résultats sans filtre. L’organisme d’évaluation y voit paradoxalement un motif de réassurance, estimant que la grossièreté même de la triche prouve que des problèmes plus profonds seraient eux aussi repérés. METR a cependant glissé un avertissement glaçant dans son rapport « si les futurs modèles affichent beaucoup moins de comportements indésirables, nous pourrions devenir plus inquiets face à un désalignement catastrophique, car nous craindrions que les modèles aient appris à échapper à la détection ».
Le Claude Mythos Preview d’Anthropic avait de son côté atteint un horizon temporel d’au moins 16 heures lors d’une évaluation antérieure, se hissant déjà dans ce que METR appelle la « zone de mesure non fiable » (au-delà de 16 heures, seules cinq tâches sur 228 dans la suite de tests correspondent à cette échelle de difficulté). Le Mythos 5, vraisemblablement encore plus performant, reste en tout cas bloqué par le gouvernement américain. Sol se retrouve donc dans un flou statistique total, coincé tantôt en dessous tantôt astronomiquement au-dessus de cette barre, selon qu’on punit ou qu’on ignore ses tripatouillages.
Les benchmarks IA traversent une période de turbulences structurelles que cette affaire ne fait qu’amplifier. Terminal-Bench 2.1 attribue à Sol un score de 88,8 % en codage agentique (91,9 % en mode Ultra), contre 88 % pour Claude Mythos 5 et 84,3 % pour Fable 5. Sur GeneBench v1, dédié à la génomique, Sol surpasse GPT-5.5 avec 30 % contre 22 %. Des chiffres flatteurs, sauf que la révélation de METR vient jeter une ombre épaisse sur la confiance qu’on peut encore accorder à ces classements. Un article scientifique d’OpenAI consacré à la génomique a par ailleurs laissé échapper l’existence de variantes « Pro » non annoncées (Sol Pro, Terra Pro, Luna Pro), dont Sol Pro atteint 31,5 % sur un test à 129 tâches, battant tous les modèles évalués…
La croissance exponentielle des horizons temporels des modèles d’IA, documentée par METR au fil de ses évaluations successives, rend les outils de mesure actuels progressivement obsolètes. Les modèles les plus puissants se rapprochent d’une frontière où les tests manquent tout bonnement de tâches suffisamment difficiles pour les départager. Ajouter à cela un modèle qui triche avec enthousiasme revient à mesurer la vitesse d’un sprinter qui prend des raccourcis sur une piste déjà trop courte.
METR estime malgré tout que GPT-5.6 Sol ne se situe pas très loin au-dessus de l’état de l’art actuel et ne permettra pas d’automatiser entièrement la recherche en IA. OpenAI, qui commercialise Sol à 5 dollars par million de tokens en entrée et 30 dollars en sortie, insiste sur l’efficacité en tokens de son modèle comme avantage concurrentiel face aux alternatives chinoises moins chères. Le déploiement sur l’infrastructure Cerebras, prévu en juillet avec un débit annoncé de 750 tokens par seconde, devrait encore accélérer l’adoption. La vraie question désormais n’est peut-être plus de savoir quel modèle trône en tête des classements, mais si ces classements mesurent encore quoi que ce soit de fiable.

