JDWJDW
Font ResizerAa
  • Tech & Innovations
  • Mobiles & Apps
  • IA & Robotique
  • Consoles & Jeux Vidéo
  • Films & Séries
  • Animes & Mangas
  • Blockchain & Crypto
  • Plus
    • Web & Internet
    • Geek & Gadgets
    • Informatique & Cybersécurité
    • Sciences & Espace
    • Réseaux Sociaux & Influence
    • e-Business & Webmarketing
    • Fintech & Néobanques
    • Streaming & P2P
Font ResizerAa
JDWJDW
Rechercher
  • Web & Internet
  • Tech & Innovations
  • Mobiles & Apps
  • Consoles & Jeux Vidéo
  • Films & Séries
  • Animes & Mangas
  • Blockchain & Crypto
  • Geek & Gadgets
  • Informatique & Cybersécurité
  • Streaming & P2P
Avez-vous déjà un compte ? Sign In
Suivez-nous
Tech & Innovations

Qu’est ce que ARC AGI, le benchmark qui mesure la véritable intelligence des IA ?

Raphael Gelin
Published: 17 juillet 2025
Last updated: 18 juillet 2025
Partager
ARC AGI
Sommaire
  • Un benchmark pour mesurer l’intelligence fluide
  • Pourquoi ARC-AGI-2 ?
  • Trois faiblesses clés chez les IA actuelles
  • Une compétition ouverte

Si les systèmes d’IA accomplissent des prouesses dans des domaines ciblés, ils échouent encore à démontrer une capacité véritablement générale à raisonner, apprendre et s’adapter comme le ferait un humain. C’est précisément pour sonder ce fossé que le benchmark ARC-AGI a vu le jour en 2019. Sa deuxième version, ARC-AGI-2, vient tout juste d’être lancée, avec l’ambition de mieux cerner les limites actuelles des modèles d’IA dits « frontière », ces systèmes à la pointe du progrès technologique.

Mais que mesure-t-on vraiment lorsqu’on parle d’intelligence artificielle générale ? Et pourquoi a-t-on besoin d’un nouveau benchmark si le précédent semblait déjà très exigeant ? En fait, malgré les efforts déployés depuis cinq ans autour d’ARC-AGI-1, les progrès rapides de l’IA ont mis en évidence ses lacunes. Les tâches proposées ne suffisent plus à discriminer finement les capacités cognitives émergentes de ces systèmes. D’où l’apparition d’ARC-AGI-2, un corpus repensé pour évaluer non seulement la performance brute, mais surtout la flexibilité mentale et la capacité à généraliser face à l’inattendu.

Un benchmark pour mesurer l’intelligence fluide

Contrairement aux tests classiques qui évaluent des compétences précises ou apprises (comme résoudre une équation ou traduire un texte), ARC-AGI se concentre sur ce que certains appellent intelligence fluide (ou Fluid Intelligence). Il s’agit ici de tester la capacité à raisonner de manière abstraite, sans dépendre de connaissances culturelles ou spécifiques. Pour cela, chaque tâche est conçue pour être résoluble par des humains sans formation particulière, mais difficilement attaquable par des IA entraînées sur de vastes jeux de données.

C’est François Chollet, chercheur chez Google et créateur de Keras, qui a introduit ce concept dans son essai “On the Measure of Intelligence”. Selon lui, il faut sortir du piège des performances superficielles, celles que l’on peut “acheter” via des données massives, pour se concentrer sur la vitesse d’acquisition de nouvelles compétences. Plus simplement, un système intelligent n’est pas celui qui sait beaucoup de choses, mais celui qui apprend rapidement avec peu d’informations.

ARC-AGI repose donc sur le principe de limiter les tâches aux « core knowledge priors », c’est-à-dire aux structures cognitives que tout humain possède naturellement (comme reconnaître une symétrie ou comprendre qu’un objet continue d’exister même hors champ visuel). Ainsi, on élimine les biais liés au bagage culturel ou linguistique.

A lire également

ia vole propriété intellectuelle
L’intelligence artificielle a-t-elle volé les créateurs ? Le procès du copyright s’enflamme
one plus 15
OnePlus 15 : la compatibilité AirDrop via Quick Share arrive sur Android
gpt-5.4 vs opus 4.7
GPT-5.4 vs Claude Opus 4.7 : le duel des titans de l’IA décrypté benchmark par benchmark

Une IA ne peut pas tricher en exploitant une base de données, elle doit réellement raisonner.

Pourquoi ARC-AGI-2 ?

Si ARC-AGI-1 a marqué une rupture dans l’évaluation des IA, il a aussi montré ses limites. Trop souvent, certaines tâches pouvaient être abordées par force brute ou par reconnaissance statistique sans réelle compréhension du problème posé. Avec ARC-AGI-2, les concepteurs ont voulu aller plus loin en complexifiant subtilement les règles implicites et en rendant chaque tâche moins « brute-forceable ».

Le nouveau corpus inclut donc davantage de variations et introduit des niveaux supplémentaires de difficulté cognitive. Chaque tâche est inédite et ne peut être mémorisée à l’avance (ce point est resté inchangé). Surtout, elles exigent désormais que plusieurs règles soient combinées simultanément, ce que même les meilleurs systèmes peinent encore à faire correctement.

Par ailleurs, ARC-AGI-2 introduit une nouveauté importante : la collecte systématique de données humaines lors des tests publics et privés. L’idée est de comparer directement les résultats obtenus par des humains avec ceux fournis par les IA testées sur exactement les mêmes problèmes. On obtient alors un signal beaucoup plus riche (« plus de bande passante ») permettant d’évaluer finement où se situe encore le gouffre entre cognition humaine et artificielle.

Trois faiblesses clés chez les IA actuelles

Les premiers résultats issus d’ARC-AGI-2 confirment que certaines formes de raisonnement restent largement hors de portée pour nos machines actuelles. L’une des difficultés récurrentes concerne ce que le rapport technique appelle « l’interprétation symbolique ».

Autrement dit, comprendre qu’un symbole représente quelque chose au-delà de sa forme visuelle (une intention, une règle implicite…). Là où un humain attribue spontanément du sens à une figure géométrique selon son agencement contextuel, une IA a tendance à rester bloquée au niveau perceptif.

L’Autre talon d’Achille des modèles IA est le raisonnement compositionnel. Il s’agit ici d’appliquer plusieurs règles en même temps ou successivement, parfois avec interaction entre elles, pour résoudre une tâche donnée. Les systèmes testés réussissent assez bien quand il n’y a qu’une seule règle globale… mais dès que deux contraintes s’entrecroisent (par exemple ordre + couleur), leur performance chute drastiquement.

Enfin, malgré leurs capacités impressionnantes en traitement massif d’informations, ces systèmes montrent encore peu de flexibilité cognitive face aux situations nouvelles ou ambiguës. Ils peinent à généraliser lorsqu’il faut inférer une règle implicite jamais vue auparavant. En cela, ils révèlent clairement leurs limites en matière d’adaptation rapide, pourtant considérée comme l’essence même de l’intelligence selon Chollet.

Une compétition ouverte

Pour stimuler la recherche et attirer davantage de talents vers ces questions difficile pour l’avenir de l’IA générale, ARC Prize Foundation a lancé une compétition autour du benchmark ARC-AGI-2. Avec un prix total annoncé à hauteur d’un million de dollars US (!), elle espère susciter un regain d’intérêt scientifique sur ces thématiques encore marginalisées par rapport aux benchmarks classiques orientés vers la performance brute.

La compétition est structurée autour de trois ensembles distincts de tâches , publique, semi-publique et privée, chacun calibré pour maintenir une difficulté comparable entre groupes tout en évitant toute fuite possible via surapprentissage ou reverse engineering. Le but n’est pas uniquement qu’un modèle atteigne un score élevé sur un sous-groupe donné… mais qu’il démontre une robustesse généralisable sur tous types de tâches proposées.

Plus largement, ce type d’initiative montre que mesurer efficacement notre progression vers l’AGI passe nécessairement par des outils adaptés. Des benchmarks comme ImageNet ou GLUE ont permis des bonds qualitatifs dans leurs domaines respectifs. ARC-AGI pourrait jouer ce même rôle pour le raisonnement abstrait automatisé, si tant est que nous sachions interpréter correctement ses signaux faibles.

Partager cet article
Facebook Whatsapp Whatsapp LinkedIn Reddit Telegram Copy Link

Derniers articles

pc gaming haut de gamme
Le PC gaming haut de gamme devient le nouveau luxe technologique
Consoles & Jeux Vidéo Informatique & Cybersécurité
huawei mate 90
Huawei Mate 90 : le géant de Shenzhen accélère et vise un lancement dès septembre 2026
Mobiles & Apps
iphone 18 pro concept
iPhone 18 Pro : ce que Siri AI et les fuites révèlent sur le prochain cru d’Apple
Mobiles & Apps
meilleurs jeux gacha
Les meilleurs jeux gacha à tester en 2026 : Genshin, Wuthering Waves, ZZZ… qui domine vraiment ?
Consoles & Jeux Vidéo

Tendance

claude fable 5
Claude Fable 5 et Mythos 5 c’est fini ! Anthropic débranche ses deux modèles sur ordre de Washington
IA & Robotique
Windows 11
Windows 11 KB5094126 : la mise à jour de juin 2026 plante des milliers de PC HP et Dell
Informatique & Cybersécurité
gpt-5.6
GPT-5.6 : OpenAI prépare déjà son prochain modèle phare, et ça sent la poudre
IA & Robotique
ps6
PS6 : Sony joue la montre pendant que Microsoft fonce tête baissée
Consoles & Jeux Vidéo
GTA 6
GTA 6 : un fan espionne le QG de Rockstar pour prédire la date du trailer 3
Consoles & Jeux Vidéo

Vous allez aussi aimer

AppleGPT
Tech & Innovations

IA : Apple prépare en secret AppleGPT pour concurrencer ChatGPT

21 juillet 2023
Pentagon building with subtle AI interface visuals, data streams and defense technology atmosphere, editorial news style
Tech & Innovations

Anthropic attaque le Pentagone et fracture l’IA américaine sur les garde-fous militaires

15 mars 2026
intelligence artificielle et jeunes
Tech & Innovations

ChatGPT et le suicide d’Adam Raine : quand l’intelligence artificielle se heurte à ses propres failles

29 août 2025
Claude AI
Tech & Innovations

Guerre de l’IA : avec Claude, Anthropic est en train de doubler OpenAI dans le coeur des investisseurs

11 avril 2026
Gemini Live
Tech & Innovations

Gemini Live : Le chat vocal IA de Google débarque enfin

28 août 2024
OpenAI
Tech & Innovations

OpenAI: Un nouveau modèle économique en vue, orienté vers le profit

26 septembre 2024
unitree kick operator
Tech & Innovations

Unitree G1 : le robot chinois met un coup de pied à son opérateur d’entrainement et fait rire Elon Musk

30 décembre 2025
deepseek
Tech & Innovations

DeepSeek lance sa version 3.1 avec 685 milliards de paramètres et fait disparaitre R1

21 août 2025

Infos légales

  • Mentions légales
  • Politique de confidentialité
  • Nous contacter
  • Partenaires

Maj récentes

Vivo X Fold 6
Vivo X Fold 6 : le pliable qui veut humilier Samsung sur la photo
Mobiles & Apps
android 17
Android 17 débarque sur Pixel et met iOS sous pression
Mobiles & Apps
rtx remix
RTX Remix 1.5 et la compression RTX IO : NVIDIA fait fondre le poids des jeux remasterisés
Consoles & Jeux Vidéo
ios 26.6
iOS 26.6 bêta 2 est enfin là : Apple peaufine l’iPhone pendant que iOS 27 attire les projecteurs
Mobiles & Apps

Qui sommes nous ?

Le Journal du Web alias JDW a été fondé et est édité par des passionnés par l’univers web, nouvelles technologies et de la culture populaire.

Newsletter
Inscrivez-vous à notre newsletter pour recevoir nos derniers articles!
Suivez-nous
Welcome Back!

Sign in to your account

Username or Email Address
Password

Mot de passe oublié ?