Qu’est ce que ARC AGI, le benchmark qui mesure la véritable intelligence des IA ?

Sommaire

Si les systèmes d’IA accomplissent des prouesses dans des domaines ciblés, ils échouent encore à démontrer une capacité véritablement générale à raisonner, apprendre et s’adapter comme le ferait un humain. C’est précisément pour sonder ce fossé que le benchmark ARC-AGI a vu le jour en 2019. Sa deuxième version, ARC-AGI-2, vient tout juste d’être lancée, avec l’ambition de mieux cerner les limites actuelles des modèles d’IA dits « frontière », ces systèmes à la pointe du progrès technologique.

Mais que mesure-t-on vraiment lorsqu’on parle d’intelligence artificielle générale ? Et pourquoi a-t-on besoin d’un nouveau benchmark si le précédent semblait déjà très exigeant ? En fait, malgré les efforts déployés depuis cinq ans autour d’ARC-AGI-1, les progrès rapides de l’IA ont mis en évidence ses lacunes. Les tâches proposées ne suffisent plus à discriminer finement les capacités cognitives émergentes de ces systèmes. D’où l’apparition d’ARC-AGI-2, un corpus repensé pour évaluer non seulement la performance brute, mais surtout la flexibilité mentale et la capacité à généraliser face à l’inattendu.

Un benchmark pour mesurer l’intelligence fluide

Contrairement aux tests classiques qui évaluent des compétences précises ou apprises (comme résoudre une équation ou traduire un texte), ARC-AGI se concentre sur ce que certains appellent intelligence fluide (ou Fluid Intelligence). Il s’agit ici de tester la capacité à raisonner de manière abstraite, sans dépendre de connaissances culturelles ou spécifiques. Pour cela, chaque tâche est conçue pour être résoluble par des humains sans formation particulière, mais difficilement attaquable par des IA entraînées sur de vastes jeux de données.

C’est François Chollet, chercheur chez Google et créateur de Keras, qui a introduit ce concept dans son essai “On the Measure of Intelligence”. Selon lui, il faut sortir du piège des performances superficielles, celles que l’on peut “acheter” via des données massives, pour se concentrer sur la vitesse d’acquisition de nouvelles compétences. Plus simplement, un système intelligent n’est pas celui qui sait beaucoup de choses, mais celui qui apprend rapidement avec peu d’informations.

ARC-AGI repose donc sur le principe de limiter les tâches aux « core knowledge priors », c’est-à-dire aux structures cognitives que tout humain possède naturellement (comme reconnaître une symétrie ou comprendre qu’un objet continue d’exister même hors champ visuel). Ainsi, on élimine les biais liés au bagage culturel ou linguistique.

Une IA ne peut pas tricher en exploitant une base de données, elle doit réellement raisonner.

Pourquoi ARC-AGI-2 ?

Si ARC-AGI-1 a marqué une rupture dans l’évaluation des IA, il a aussi montré ses limites. Trop souvent, certaines tâches pouvaient être abordées par force brute ou par reconnaissance statistique sans réelle compréhension du problème posé. Avec ARC-AGI-2, les concepteurs ont voulu aller plus loin en complexifiant subtilement les règles implicites et en rendant chaque tâche moins « brute-forceable ».

Le nouveau corpus inclut donc davantage de variations et introduit des niveaux supplémentaires de difficulté cognitive. Chaque tâche est inédite et ne peut être mémorisée à l’avance (ce point est resté inchangé). Surtout, elles exigent désormais que plusieurs règles soient combinées simultanément, ce que même les meilleurs systèmes peinent encore à faire correctement.

Par ailleurs, ARC-AGI-2 introduit une nouveauté importante : la collecte systématique de données humaines lors des tests publics et privés. L’idée est de comparer directement les résultats obtenus par des humains avec ceux fournis par les IA testées sur exactement les mêmes problèmes. On obtient alors un signal beaucoup plus riche (« plus de bande passante ») permettant d’évaluer finement où se situe encore le gouffre entre cognition humaine et artificielle.

Trois faiblesses clés chez les IA actuelles

Les premiers résultats issus d’ARC-AGI-2 confirment que certaines formes de raisonnement restent largement hors de portée pour nos machines actuelles. L’une des difficultés récurrentes concerne ce que le rapport technique appelle « l’interprétation symbolique ».

Autrement dit, comprendre qu’un symbole représente quelque chose au-delà de sa forme visuelle (une intention, une règle implicite…). Là où un humain attribue spontanément du sens à une figure géométrique selon son agencement contextuel, une IA a tendance à rester bloquée au niveau perceptif.

L’Autre talon d’Achille des modèles IA est le raisonnement compositionnel. Il s’agit ici d’appliquer plusieurs règles en même temps ou successivement, parfois avec interaction entre elles, pour résoudre une tâche donnée. Les systèmes testés réussissent assez bien quand il n’y a qu’une seule règle globale… mais dès que deux contraintes s’entrecroisent (par exemple ordre + couleur), leur performance chute drastiquement.

Enfin, malgré leurs capacités impressionnantes en traitement massif d’informations, ces systèmes montrent encore peu de flexibilité cognitive face aux situations nouvelles ou ambiguës. Ils peinent à généraliser lorsqu’il faut inférer une règle implicite jamais vue auparavant. En cela, ils révèlent clairement leurs limites en matière d’adaptation rapide, pourtant considérée comme l’essence même de l’intelligence selon Chollet.

Une compétition ouverte

Pour stimuler la recherche et attirer davantage de talents vers ces questions difficile pour l’avenir de l’IA générale, ARC Prize Foundation a lancé une compétition autour du benchmark ARC-AGI-2. Avec un prix total annoncé à hauteur d’un million de dollars US (!), elle espère susciter un regain d’intérêt scientifique sur ces thématiques encore marginalisées par rapport aux benchmarks classiques orientés vers la performance brute.

La compétition est structurée autour de trois ensembles distincts de tâches , publique, semi-publique et privée, chacun calibré pour maintenir une difficulté comparable entre groupes tout en évitant toute fuite possible via surapprentissage ou reverse engineering. Le but n’est pas uniquement qu’un modèle atteigne un score élevé sur un sous-groupe donné… mais qu’il démontre une robustesse généralisable sur tous types de tâches proposées.

Plus largement, ce type d’initiative montre que mesurer efficacement notre progression vers l’AGI passe nécessairement par des outils adaptés. Des benchmarks comme ImageNet ou GLUE ont permis des bonds qualitatifs dans leurs domaines respectifs. ARC-AGI pourrait jouer ce même rôle pour le raisonnement abstrait automatisé, si tant est que nous sachions interpréter correctement ses signaux faibles.

Qu’est ce que ARC AGI, le benchmark qui mesure la véritable intelligence des IA ?

Un benchmark pour mesurer l’intelligence fluide

Pourquoi ARC-AGI-2 ?

Trois faiblesses clés chez les IA actuelles

Une compétition ouverte

Derniers articles

Qu’est-ce qu’Ollama ? Tout savoir sur ce moteur d’IA locale

GTA 6 : comment Leonida repousse les lois de la géométrie vidéoludique sans recourir à l’intelligence artificielle

Claude Fable 5 vs GPT-5.6 Sol : le duel des deux LLM frontière décortiqué benchmark par benchmark

CyberGhost VPN casse son prix à 1,59 €/mois : 88 % de remise et 2 mois offerts

Tendance

iOS 27 bêta publique : date probable, iPhone compatibles et faut-il l’installer ?

GPT‑5.6 aurait “triché” pendant ses tests : faut-il encore croire aux benchmarks IA ?

iOS 27 en bêta publique : Siri dopé à l’IA arrive enfin sur iPhone

GTA 6 : le gameplay se rapproche et Rockstar a déjà semé des indices partout

iPhone 18 Pro, Ultra pliable et hausse des prix : Apple prépare un automne à 2 500 dollars

Vous allez aussi aimer

Vous utilisez ChatGPT ? Attention! Vos conversations sont peut être indexées sur Google

GPT-5.4 vs Claude Opus 4.7 : le duel des titans de l’IA décrypté benchmark par benchmark

Malgré la controverse Grok, xAI d’Elon Musk décroche un contrat de 200 millions de dollars avec le Pentagone

L’IA fait décliner nos capacités cognitives et ses effets sont déjà visibles

Xiaomi Mijia Smart Audio Glasses : la lunette qui murmure à l’oreille du futur

Meta promet d’investir « des centaines de milliards » dans l’intelligence artificielle pour devenir leader

Apple annonce l’Apple Vision Pro ! Une révolution dans le monde de la réalité augmentée

OpenAI lance ChatGPT Agent, une IA autonome qui fait tout (ou presque) à votre place

Infos légales

Maj récentes

Xiaomi 18 Pro : la fuite promet double capteur 200MP, batterie 7000mAh et puce Snapdragon en 2nm

Apple attaque OpenAI et io en justice pour vol de secrets industriels sur l’iPhone

Windows 11 démembre Phone Link : la synchronisation Android s’installe au cœur du système

OxygenOS c’est fini : Oppo efface OnePlus en fondant sa marque dans ColorOS

Qui sommes nous ?

Un benchmark pour mesurer l’intelligence fluide

A lire également

Pourquoi ARC-AGI-2 ?

Trois faiblesses clés chez les IA actuelles

Une compétition ouverte

Derniers articles

Tendance

Vous allez aussi aimer