JDWJDW
Font ResizerAa
  • Tech & Innovations
  • Mobiles & Apps
  • IA & Robotique
  • Consoles & Jeux Vidéo
  • Films & Séries
  • Animes & Mangas
  • Blockchain & Crypto
  • Plus
    • Web & Internet
    • Geek & Gadgets
    • Informatique & Cybersécurité
    • Sciences & Espace
    • Réseaux Sociaux & Influence
    • e-Business & Webmarketing
    • Fintech & Néobanques
    • Streaming & P2P
Font ResizerAa
JDWJDW
Rechercher
  • Web & Internet
  • Tech & Innovations
  • Mobiles & Apps
  • Consoles & Jeux Vidéo
  • Films & Séries
  • Animes & Mangas
  • Blockchain & Crypto
  • Geek & Gadgets
  • Informatique & Cybersécurité
  • Streaming & P2P
Avez-vous déjà un compte ? Sign In
Suivez-nous
Tech & Innovations

Qu’est ce que ARC AGI, le benchmark qui mesure la véritable intelligence des IA ?

Raphael Gelin
Published: 17 juillet 2025
Last updated: 18 juillet 2025
Partager
ARC AGI
Sommaire
  • Un benchmark pour mesurer l’intelligence fluide
  • Pourquoi ARC-AGI-2 ?
  • Trois faiblesses clés chez les IA actuelles
  • Une compétition ouverte

Si les systèmes d’IA accomplissent des prouesses dans des domaines ciblés, ils échouent encore à démontrer une capacité véritablement générale à raisonner, apprendre et s’adapter comme le ferait un humain. C’est précisément pour sonder ce fossé que le benchmark ARC-AGI a vu le jour en 2019. Sa deuxième version, ARC-AGI-2, vient tout juste d’être lancée, avec l’ambition de mieux cerner les limites actuelles des modèles d’IA dits « frontière », ces systèmes à la pointe du progrès technologique.

Mais que mesure-t-on vraiment lorsqu’on parle d’intelligence artificielle générale ? Et pourquoi a-t-on besoin d’un nouveau benchmark si le précédent semblait déjà très exigeant ? En fait, malgré les efforts déployés depuis cinq ans autour d’ARC-AGI-1, les progrès rapides de l’IA ont mis en évidence ses lacunes. Les tâches proposées ne suffisent plus à discriminer finement les capacités cognitives émergentes de ces systèmes. D’où l’apparition d’ARC-AGI-2, un corpus repensé pour évaluer non seulement la performance brute, mais surtout la flexibilité mentale et la capacité à généraliser face à l’inattendu.

Un benchmark pour mesurer l’intelligence fluide

Contrairement aux tests classiques qui évaluent des compétences précises ou apprises (comme résoudre une équation ou traduire un texte), ARC-AGI se concentre sur ce que certains appellent intelligence fluide (ou Fluid Intelligence). Il s’agit ici de tester la capacité à raisonner de manière abstraite, sans dépendre de connaissances culturelles ou spécifiques. Pour cela, chaque tâche est conçue pour être résoluble par des humains sans formation particulière, mais difficilement attaquable par des IA entraînées sur de vastes jeux de données.

C’est François Chollet, chercheur chez Google et créateur de Keras, qui a introduit ce concept dans son essai “On the Measure of Intelligence”. Selon lui, il faut sortir du piège des performances superficielles, celles que l’on peut “acheter” via des données massives, pour se concentrer sur la vitesse d’acquisition de nouvelles compétences. Plus simplement, un système intelligent n’est pas celui qui sait beaucoup de choses, mais celui qui apprend rapidement avec peu d’informations.

ARC-AGI repose donc sur le principe de limiter les tâches aux « core knowledge priors », c’est-à-dire aux structures cognitives que tout humain possède naturellement (comme reconnaître une symétrie ou comprendre qu’un objet continue d’exister même hors champ visuel). Ainsi, on élimine les biais liés au bagage culturel ou linguistique.

A lire également

gpt-5.4 vs opus 4.7
GPT-5.4 vs Claude Opus 4.7 : le duel des titans de l’IA décrypté benchmark par benchmark
robot humanoide marathon
Un robot humanoïde pulvérise le record du semi-marathon
Claude AI
Anthropic (Claude) et Amazon scellent un pacte titanesque de 100 milliards de dollars

Une IA ne peut pas tricher en exploitant une base de données, elle doit réellement raisonner.

Pourquoi ARC-AGI-2 ?

Si ARC-AGI-1 a marqué une rupture dans l’évaluation des IA, il a aussi montré ses limites. Trop souvent, certaines tâches pouvaient être abordées par force brute ou par reconnaissance statistique sans réelle compréhension du problème posé. Avec ARC-AGI-2, les concepteurs ont voulu aller plus loin en complexifiant subtilement les règles implicites et en rendant chaque tâche moins « brute-forceable ».

Le nouveau corpus inclut donc davantage de variations et introduit des niveaux supplémentaires de difficulté cognitive. Chaque tâche est inédite et ne peut être mémorisée à l’avance (ce point est resté inchangé). Surtout, elles exigent désormais que plusieurs règles soient combinées simultanément, ce que même les meilleurs systèmes peinent encore à faire correctement.

Par ailleurs, ARC-AGI-2 introduit une nouveauté importante : la collecte systématique de données humaines lors des tests publics et privés. L’idée est de comparer directement les résultats obtenus par des humains avec ceux fournis par les IA testées sur exactement les mêmes problèmes. On obtient alors un signal beaucoup plus riche (« plus de bande passante ») permettant d’évaluer finement où se situe encore le gouffre entre cognition humaine et artificielle.

Trois faiblesses clés chez les IA actuelles

Les premiers résultats issus d’ARC-AGI-2 confirment que certaines formes de raisonnement restent largement hors de portée pour nos machines actuelles. L’une des difficultés récurrentes concerne ce que le rapport technique appelle « l’interprétation symbolique ».

Autrement dit, comprendre qu’un symbole représente quelque chose au-delà de sa forme visuelle (une intention, une règle implicite…). Là où un humain attribue spontanément du sens à une figure géométrique selon son agencement contextuel, une IA a tendance à rester bloquée au niveau perceptif.

L’Autre talon d’Achille des modèles IA est le raisonnement compositionnel. Il s’agit ici d’appliquer plusieurs règles en même temps ou successivement, parfois avec interaction entre elles, pour résoudre une tâche donnée. Les systèmes testés réussissent assez bien quand il n’y a qu’une seule règle globale… mais dès que deux contraintes s’entrecroisent (par exemple ordre + couleur), leur performance chute drastiquement.

Enfin, malgré leurs capacités impressionnantes en traitement massif d’informations, ces systèmes montrent encore peu de flexibilité cognitive face aux situations nouvelles ou ambiguës. Ils peinent à généraliser lorsqu’il faut inférer une règle implicite jamais vue auparavant. En cela, ils révèlent clairement leurs limites en matière d’adaptation rapide, pourtant considérée comme l’essence même de l’intelligence selon Chollet.

Une compétition ouverte

Pour stimuler la recherche et attirer davantage de talents vers ces questions difficile pour l’avenir de l’IA générale, ARC Prize Foundation a lancé une compétition autour du benchmark ARC-AGI-2. Avec un prix total annoncé à hauteur d’un million de dollars US (!), elle espère susciter un regain d’intérêt scientifique sur ces thématiques encore marginalisées par rapport aux benchmarks classiques orientés vers la performance brute.

La compétition est structurée autour de trois ensembles distincts de tâches , publique, semi-publique et privée, chacun calibré pour maintenir une difficulté comparable entre groupes tout en évitant toute fuite possible via surapprentissage ou reverse engineering. Le but n’est pas uniquement qu’un modèle atteigne un score élevé sur un sous-groupe donné… mais qu’il démontre une robustesse généralisable sur tous types de tâches proposées.

Plus largement, ce type d’initiative montre que mesurer efficacement notre progression vers l’AGI passe nécessairement par des outils adaptés. Des benchmarks comme ImageNet ou GLUE ont permis des bonds qualitatifs dans leurs domaines respectifs. ARC-AGI pourrait jouer ce même rôle pour le raisonnement abstrait automatisé, si tant est que nous sachions interpréter correctement ses signaux faibles.

Partager cet article
Facebook Whatsapp Whatsapp LinkedIn Reddit Telegram Copy Link

Derniers articles

Conceptual digital art, futuristic AI consciousness debate visualized as a sleek black neural circuit map split by a glo
L’IA ne sera jamais consciente : un chercheur de Google DeepMind plante le drapeau
IA & Robotique
Solana
Solana Alpenglow : la refonte la plus ambitieuse de l’histoire du réseau entre en phase de test
Blockchain & Crypto
crypto-monnaies forex arnaques
Crypto-monnaies & Forex : Enquête sur ces arnaques au trading via robots IA qui vident vos comptes
Blockchain & Crypto Web & Internet
Gain Generator Pro Arnaque
Avis Gain Generator Pro : Arnaque ou robot de trading fiable ?

Tendance

eToro
Avis eToro 2026 : Courtier sérieux ou arnaque ? Notre test complet
Bitcoin
Qu’est-ce que le Bitcoin ? Le guide complet 2026 (de Satoshi à Wall Street)
Blockchain & Crypto
Bit GPT App arnaque
Avis Bit GPT App : véritable arnaque ou service légitime ?
Modern editorial photography, secret Pentagon declassification scene, a stack of heavily redacted government files on a
Divulgation Ovni : les premiers documents déclassifiés du gouvernement américain attendus à 14 heures
Sciences & Espace
ios 27
iOS 27 : Apple avec Siri ouvre grand la porte a ChatGPT et Claude AI
IA & Robotique Mobiles & Apps

Vous allez aussi aimer

OpenAI Text Classifier
Tech & Innovations

OpenAI prépare une Superapp qui fusionne ChatGPT, Codex et navigateur sur ordinateur

20 mars 2026
chatgot
Tech & Innovations

Avis sur ChatGot : l’assistant IA qui veut tout faire (et y arrive à moitié)

3 sur 5
xAI
Tech & Innovations

Malgré la controverse Grok, xAI d’Elon Musk décroche un contrat de 200 millions de dollars avec le Pentagone

15 juillet 2025
Sora 2 Openai
Réseaux Sociaux & InfluenceTech & Innovations

Sora 2 : OpenAI lance le TikTok de l’intelligence artificielle

3 octobre 2025
Smodin
Tech & Innovations

Avis sur Smodin : cette IA de reformulation de texte est-elle efficace ?

2.3 sur 5Médiocre
atlas boston dynamics
Tech & Innovations

Le robot Atlas de Boston Dynamics bientôt prêt à remplacer l’humain ?

11 janvier 2026
Claude AI
Tech & Innovations

Anthropic dévoile Claude 3.5 Haiku : l’IA la plus rapide est là !

21 décembre 2024
iPhone 15 concept
Tech & Innovations

iPhone 15 : des hausses de prix inévitables

15 juin 2023

Infos légales

  • Mentions légales
  • Politique de confidentialité
  • Nous contacter
  • Partenaires

Maj récentes

binance
Binance lance Withdraw Protection : le coffre-fort anti-agression physique
Blockchain & Crypto
cz binance
Binance : CZ envisage un retour sur le marché américain et mise sur l’intelligence artificielle
Blockchain & Crypto
ios 26.5
iOS 26.5 RC : Apple lâche la version finale de test avant le grand lancement
Mobiles & Apps
GTA 6
GTA 6 aurait déjà couté entre 1 et 1,5 milliard de dollars à Rockstar Games
Consoles & Jeux Vidéo

Qui sommes nous ?

Le Journal du Web alias JDW a été fondé et est édité par des passionnés par l’univers web, nouvelles technologies et de la culture populaire.

Newsletter
Inscrivez-vous à notre newsletter pour recevoir nos derniers articles!
Suivez-nous
Welcome Back!

Sign in to your account

Username or Email Address
Password

Mot de passe oublié ?