JDWJDW
Font ResizerAa
  • Web & Internet
  • Tech & Innovations
  • Mobiles & Apps
  • Consoles & Jeux Vidéo
  • Films & Séries
  • Animes & Mangas
  • Blockchain & Crypto
  • Plus
    • Informatique & Cybersécurité
    • Geek & Gadgets
    • Réseaux Sociaux & Influence
    • e-Business & Webmarketing
    • Fintech & Néobanques
    • Streaming & P2P
Font ResizerAa
JDWJDW
Rechercher
  • Web & Internet
  • Tech & Innovations
  • Mobiles & Apps
  • Consoles & Jeux Vidéo
  • Films & Séries
  • Animes & Mangas
  • Blockchain & Crypto
  • Geek & Gadgets
  • Informatique & Cybersécurité
  • Streaming & P2P
Have an existing account? Sign In
Suivez-nous
Tech & Innovations

Qu’est ce que ARC AGI, le benchmark qui mesure la véritable intelligence des IA ?

Last updated: 18 juillet 2025 10h59
Raphael Gelin
Published 17 juillet 2025
Partager
ARC AGI
Sommaire
Un benchmark pour mesurer l’intelligence fluidePourquoi ARC-AGI-2 ?Trois faiblesses clés chez les IA actuellesUne compétition ouverte

Si les systèmes d’IA accomplissent des prouesses dans des domaines ciblés, ils échouent encore à démontrer une capacité véritablement générale à raisonner, apprendre et s’adapter comme le ferait un humain. C’est précisément pour sonder ce fossé que le benchmark ARC-AGI a vu le jour en 2019. Sa deuxième version, ARC-AGI-2, vient tout juste d’être lancée, avec l’ambition de mieux cerner les limites actuelles des modèles d’IA dits « frontière », ces systèmes à la pointe du progrès technologique.

Mais que mesure-t-on vraiment lorsqu’on parle d’intelligence artificielle générale ? Et pourquoi a-t-on besoin d’un nouveau benchmark si le précédent semblait déjà très exigeant ? En fait, malgré les efforts déployés depuis cinq ans autour d’ARC-AGI-1, les progrès rapides de l’IA ont mis en évidence ses lacunes. Les tâches proposées ne suffisent plus à discriminer finement les capacités cognitives émergentes de ces systèmes. D’où l’apparition d’ARC-AGI-2, un corpus repensé pour évaluer non seulement la performance brute, mais surtout la flexibilité mentale et la capacité à généraliser face à l’inattendu.

Un benchmark pour mesurer l’intelligence fluide

Contrairement aux tests classiques qui évaluent des compétences précises ou apprises (comme résoudre une équation ou traduire un texte), ARC-AGI se concentre sur ce que certains appellent intelligence fluide (ou Fluid Intelligence). Il s’agit ici de tester la capacité à raisonner de manière abstraite, sans dépendre de connaissances culturelles ou spécifiques. Pour cela, chaque tâche est conçue pour être résoluble par des humains sans formation particulière, mais difficilement attaquable par des IA entraînées sur de vastes jeux de données.

C’est François Chollet, chercheur chez Google et créateur de Keras, qui a introduit ce concept dans son essai “On the Measure of Intelligence”. Selon lui, il faut sortir du piège des performances superficielles, celles que l’on peut “acheter” via des données massives, pour se concentrer sur la vitesse d’acquisition de nouvelles compétences. Plus simplement, un système intelligent n’est pas celui qui sait beaucoup de choses, mais celui qui apprend rapidement avec peu d’informations.

ARC-AGI repose donc sur le principe de limiter les tâches aux « core knowledge priors », c’est-à-dire aux structures cognitives que tout humain possède naturellement (comme reconnaître une symétrie ou comprendre qu’un objet continue d’exister même hors champ visuel). Ainsi, on élimine les biais liés au bagage culturel ou linguistique.

A lire également

OnlyFans
OnlyFans : derrière les promesses d’argent facile, la désillusion pour 95% des créateurs
GTA 6
GTA 6 : 7,6 milliards de recettes, la promesse d’un lancement qui va pulvériser tous les records
Intelligence artificielle : Les 40 métiers les plus menacés d’après une étude choc de Microsoft

Une IA ne peut pas tricher en exploitant une base de données, elle doit réellement raisonner.

Pourquoi ARC-AGI-2 ?

Si ARC-AGI-1 a marqué une rupture dans l’évaluation des IA, il a aussi montré ses limites. Trop souvent, certaines tâches pouvaient être abordées par force brute ou par reconnaissance statistique sans réelle compréhension du problème posé. Avec ARC-AGI-2, les concepteurs ont voulu aller plus loin en complexifiant subtilement les règles implicites et en rendant chaque tâche moins « brute-forceable ».

Le nouveau corpus inclut donc davantage de variations et introduit des niveaux supplémentaires de difficulté cognitive. Chaque tâche est inédite et ne peut être mémorisée à l’avance (ce point est resté inchangé). Surtout, elles exigent désormais que plusieurs règles soient combinées simultanément, ce que même les meilleurs systèmes peinent encore à faire correctement.

Par ailleurs, ARC-AGI-2 introduit une nouveauté importante : la collecte systématique de données humaines lors des tests publics et privés. L’idée est de comparer directement les résultats obtenus par des humains avec ceux fournis par les IA testées sur exactement les mêmes problèmes. On obtient alors un signal beaucoup plus riche (« plus de bande passante ») permettant d’évaluer finement où se situe encore le gouffre entre cognition humaine et artificielle.

Trois faiblesses clés chez les IA actuelles

Les premiers résultats issus d’ARC-AGI-2 confirment que certaines formes de raisonnement restent largement hors de portée pour nos machines actuelles. L’une des difficultés récurrentes concerne ce que le rapport technique appelle « l’interprétation symbolique ».

Autrement dit, comprendre qu’un symbole représente quelque chose au-delà de sa forme visuelle (une intention, une règle implicite…). Là où un humain attribue spontanément du sens à une figure géométrique selon son agencement contextuel, une IA a tendance à rester bloquée au niveau perceptif.

L’Autre talon d’Achille des modèles IA est le raisonnement compositionnel. Il s’agit ici d’appliquer plusieurs règles en même temps ou successivement, parfois avec interaction entre elles, pour résoudre une tâche donnée. Les systèmes testés réussissent assez bien quand il n’y a qu’une seule règle globale… mais dès que deux contraintes s’entrecroisent (par exemple ordre + couleur), leur performance chute drastiquement.

Enfin, malgré leurs capacités impressionnantes en traitement massif d’informations, ces systèmes montrent encore peu de flexibilité cognitive face aux situations nouvelles ou ambiguës. Ils peinent à généraliser lorsqu’il faut inférer une règle implicite jamais vue auparavant. En cela, ils révèlent clairement leurs limites en matière d’adaptation rapide, pourtant considérée comme l’essence même de l’intelligence selon Chollet.

Une compétition ouverte

Pour stimuler la recherche et attirer davantage de talents vers ces questions difficile pour l’avenir de l’IA générale, ARC Prize Foundation a lancé une compétition autour du benchmark ARC-AGI-2. Avec un prix total annoncé à hauteur d’un million de dollars US (!), elle espère susciter un regain d’intérêt scientifique sur ces thématiques encore marginalisées par rapport aux benchmarks classiques orientés vers la performance brute.

La compétition est structurée autour de trois ensembles distincts de tâches , publique, semi-publique et privée, chacun calibré pour maintenir une difficulté comparable entre groupes tout en évitant toute fuite possible via surapprentissage ou reverse engineering. Le but n’est pas uniquement qu’un modèle atteigne un score élevé sur un sous-groupe donné… mais qu’il démontre une robustesse généralisable sur tous types de tâches proposées.

Plus largement, ce type d’initiative montre que mesurer efficacement notre progression vers l’AGI passe nécessairement par des outils adaptés. Des benchmarks comme ImageNet ou GLUE ont permis des bonds qualitatifs dans leurs domaines respectifs. ARC-AGI pourrait jouer ce même rôle pour le raisonnement abstrait automatisé, si tant est que nous sachions interpréter correctement ses signaux faibles.

Partager cet article
Facebook Whatsapp Whatsapp LinkedIn Reddit Telegram Copy Link

Derniers articles

ps6 vs xbox helix
PS6 vs Xbox Helix : la bataille du ray tracing et de l’IA graphique s’annonce totale
Consoles & Jeux Vidéo
crimson desert
Crimson Desert sous Denuvo fait grincer les claviers à une semaine du lancement
Consoles & Jeux Vidéo
Futuristic tech illustration of a glowing red-and-gold HarmonyOS logo at the center of a vast digital ecosystem, radiati
Huawei frôle le milliard d’appareils sous HarmonyOS et s’émancipe du duo Windows-Chrome
Mobiles & Apps
gemini 3
Gemini 3.1 : Google muscle sa stratégie IA entre vitesse, coûts maîtrisés et usages intégrés
Tech & Innovations

Tendance

solana
Solana capte l’usage réel et s’installe comme pilier du nouvel ordre onchain
Blockchain & Crypto
GTA 6
GTA 6 sur le PlayStation Store relance les spéculations autour des précommandes
Consoles & Jeux Vidéo
gta 6
GTA 6 Take-Two verrouille le 19 novembre 2026 et enclenche la campagne marketing estivale
Consoles & Jeux Vidéo
war machine netflix
Netflix pulvérise les records avec War Machine et confirme sa suprématie sur le streaming spectacle
Films & Séries
iphone 18 fold concept
iPhone 18 Fold : la rupture que personne n’avait vraiment vue venir
Mobiles & Apps

Vous allez aussi aimer

GPT-5
Tech & Innovations

OpenAI utilisait Claude Code pour peaufiner GPT-5, Anthropic leur coupe l’accès

5 août 2025
ChatGpt
Tech & Innovations

ChatGpt Zero : l’application qui démasque les textes générés par l’IA

19 janvier 2023
Reformulation de texte par IA
Tech & Innovations

Top 5 des meilleurs sites IA pour reformuler un texte / paraphraser

19 février 2025
GPT-5 OpenAI
Tech & Innovations

OpenAI : le projet GPT-5 (Orion) patine sérieusement. Vers une sortie au delà de 2025 ?

22 décembre 2024
Asus NUC 14 Pro AI
Informatique & CybersécuritéTech & Innovations

Asus NUC 14 Pro AI : un mini PC qui ne fait pas les choses à moitié

29 juillet 2025
Détecteur d'IA
Tech & Innovations

Nous avons testés plus de 20 détecteurs d’IA, voici les 5 meilleurs et les 5 pires !

19 juillet 2025
huawei semi conducteur
Informatique & CybersécuritéTech & Innovations

Huawei vs Nvidia : le géant chinois revendique la « parité technique » sur l’IA

31 décembre 2025
Sam Altman Theo Von clips podcast
Tech & Innovations

Sam Altman a « peur de GPT 5 » et compare ses avancées au projet Manhattan

30 juillet 2025

Infos légales

  • Mentions légales
  • Politique de confidentialité
  • Nous contacter
  • Partenaires

Maj récentes

iOS 26
iOS 26 et correctifs de sécurité Apple, entre refonte visuelle et riposte au kit Coruna
Informatique & Cybersécurité Mobiles & Apps
beef saison 2
Beef saison 2 s’annonce comme le choc social et psychologique du printemps 2026 sur Netflix
Films & Séries
Meta AI
Meta retarde Avocado et perd du terrain dans la bataille des modèles d’IA
Tech & Innovations
virus informatique et ransomware
Spyware et adware : comment les repérer et les éradiquer sans pitié
Informatique & Cybersécurité

Qui sommes nous ?

Le Journal du Web alias JDW a été fondé et est édité par des passionnés par l’univers web, nouvelles technologies et de la culture populaire.

Newsletter
Inscrivez-vous à notre newsletter pour recevoir nos derniers articles!
Suivez-nous
adbanner
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?