JDWJDW
Font ResizerAa
  • Web & Internet
  • Tech & Innovations
  • Mobiles & Apps
  • Consoles & Jeux Vidéo
  • Films & Séries
  • Animes & Mangas
  • Blockchain & Crypto
  • Plus
    • Informatique & Cybersécurité
    • Geek & Gadgets
    • Réseaux Sociaux & Influence
    • e-Business & Webmarketing
    • Fintech & Néobanques
    • Streaming & P2P
Font ResizerAa
JDWJDW
Rechercher
  • Web & Internet
  • Tech & Innovations
  • Mobiles & Apps
  • Consoles & Jeux Vidéo
  • Films & Séries
  • Animes & Mangas
  • Blockchain & Crypto
  • Geek & Gadgets
  • Informatique & Cybersécurité
  • Streaming & P2P
Have an existing account? Sign In
Suivez-nous
Tech & Innovations

Qu’est ce que ARC AGI, le benchmark qui mesure la véritable intelligence des IA ?

Last updated: 18 juillet 2025 10h59
Raphael Gelin
Published 17 juillet 2025
Partager
ARC AGI
Sommaire
Un benchmark pour mesurer l’intelligence fluidePourquoi ARC-AGI-2 ?Trois faiblesses clés chez les IA actuellesUne compétition ouverte

Si les systèmes d’IA accomplissent des prouesses dans des domaines ciblés, ils échouent encore à démontrer une capacité véritablement générale à raisonner, apprendre et s’adapter comme le ferait un humain. C’est précisément pour sonder ce fossé que le benchmark ARC-AGI a vu le jour en 2019. Sa deuxième version, ARC-AGI-2, vient tout juste d’être lancée, avec l’ambition de mieux cerner les limites actuelles des modèles d’IA dits « frontière », ces systèmes à la pointe du progrès technologique.

Mais que mesure-t-on vraiment lorsqu’on parle d’intelligence artificielle générale ? Et pourquoi a-t-on besoin d’un nouveau benchmark si le précédent semblait déjà très exigeant ? En fait, malgré les efforts déployés depuis cinq ans autour d’ARC-AGI-1, les progrès rapides de l’IA ont mis en évidence ses lacunes. Les tâches proposées ne suffisent plus à discriminer finement les capacités cognitives émergentes de ces systèmes. D’où l’apparition d’ARC-AGI-2, un corpus repensé pour évaluer non seulement la performance brute, mais surtout la flexibilité mentale et la capacité à généraliser face à l’inattendu.

Un benchmark pour mesurer l’intelligence fluide

Contrairement aux tests classiques qui évaluent des compétences précises ou apprises (comme résoudre une équation ou traduire un texte), ARC-AGI se concentre sur ce que certains appellent intelligence fluide (ou Fluid Intelligence). Il s’agit ici de tester la capacité à raisonner de manière abstraite, sans dépendre de connaissances culturelles ou spécifiques. Pour cela, chaque tâche est conçue pour être résoluble par des humains sans formation particulière, mais difficilement attaquable par des IA entraînées sur de vastes jeux de données.

C’est François Chollet, chercheur chez Google et créateur de Keras, qui a introduit ce concept dans son essai “On the Measure of Intelligence”. Selon lui, il faut sortir du piège des performances superficielles, celles que l’on peut “acheter” via des données massives, pour se concentrer sur la vitesse d’acquisition de nouvelles compétences. Plus simplement, un système intelligent n’est pas celui qui sait beaucoup de choses, mais celui qui apprend rapidement avec peu d’informations.

ARC-AGI repose donc sur le principe de limiter les tâches aux « core knowledge priors », c’est-à-dire aux structures cognitives que tout humain possède naturellement (comme reconnaître une symétrie ou comprendre qu’un objet continue d’exister même hors champ visuel). Ainsi, on élimine les biais liés au bagage culturel ou linguistique.

A lire également

OnlyFans
OnlyFans : derrière les promesses d’argent facile, la désillusion pour 95% des créateurs
GTA 6
GTA 6 : 7,6 milliards de recettes, la promesse d’un lancement qui va pulvériser tous les records
Intelligence artificielle : Les 40 métiers les plus menacés d’après une étude choc de Microsoft

Une IA ne peut pas tricher en exploitant une base de données, elle doit réellement raisonner.

Pourquoi ARC-AGI-2 ?

Si ARC-AGI-1 a marqué une rupture dans l’évaluation des IA, il a aussi montré ses limites. Trop souvent, certaines tâches pouvaient être abordées par force brute ou par reconnaissance statistique sans réelle compréhension du problème posé. Avec ARC-AGI-2, les concepteurs ont voulu aller plus loin en complexifiant subtilement les règles implicites et en rendant chaque tâche moins « brute-forceable ».

Le nouveau corpus inclut donc davantage de variations et introduit des niveaux supplémentaires de difficulté cognitive. Chaque tâche est inédite et ne peut être mémorisée à l’avance (ce point est resté inchangé). Surtout, elles exigent désormais que plusieurs règles soient combinées simultanément, ce que même les meilleurs systèmes peinent encore à faire correctement.

Par ailleurs, ARC-AGI-2 introduit une nouveauté importante : la collecte systématique de données humaines lors des tests publics et privés. L’idée est de comparer directement les résultats obtenus par des humains avec ceux fournis par les IA testées sur exactement les mêmes problèmes. On obtient alors un signal beaucoup plus riche (« plus de bande passante ») permettant d’évaluer finement où se situe encore le gouffre entre cognition humaine et artificielle.

Trois faiblesses clés chez les IA actuelles

Les premiers résultats issus d’ARC-AGI-2 confirment que certaines formes de raisonnement restent largement hors de portée pour nos machines actuelles. L’une des difficultés récurrentes concerne ce que le rapport technique appelle « l’interprétation symbolique ».

Autrement dit, comprendre qu’un symbole représente quelque chose au-delà de sa forme visuelle (une intention, une règle implicite…). Là où un humain attribue spontanément du sens à une figure géométrique selon son agencement contextuel, une IA a tendance à rester bloquée au niveau perceptif.

L’Autre talon d’Achille des modèles IA est le raisonnement compositionnel. Il s’agit ici d’appliquer plusieurs règles en même temps ou successivement, parfois avec interaction entre elles, pour résoudre une tâche donnée. Les systèmes testés réussissent assez bien quand il n’y a qu’une seule règle globale… mais dès que deux contraintes s’entrecroisent (par exemple ordre + couleur), leur performance chute drastiquement.

Enfin, malgré leurs capacités impressionnantes en traitement massif d’informations, ces systèmes montrent encore peu de flexibilité cognitive face aux situations nouvelles ou ambiguës. Ils peinent à généraliser lorsqu’il faut inférer une règle implicite jamais vue auparavant. En cela, ils révèlent clairement leurs limites en matière d’adaptation rapide, pourtant considérée comme l’essence même de l’intelligence selon Chollet.

Une compétition ouverte

Pour stimuler la recherche et attirer davantage de talents vers ces questions difficile pour l’avenir de l’IA générale, ARC Prize Foundation a lancé une compétition autour du benchmark ARC-AGI-2. Avec un prix total annoncé à hauteur d’un million de dollars US (!), elle espère susciter un regain d’intérêt scientifique sur ces thématiques encore marginalisées par rapport aux benchmarks classiques orientés vers la performance brute.

La compétition est structurée autour de trois ensembles distincts de tâches , publique, semi-publique et privée, chacun calibré pour maintenir une difficulté comparable entre groupes tout en évitant toute fuite possible via surapprentissage ou reverse engineering. Le but n’est pas uniquement qu’un modèle atteigne un score élevé sur un sous-groupe donné… mais qu’il démontre une robustesse généralisable sur tous types de tâches proposées.

Plus largement, ce type d’initiative montre que mesurer efficacement notre progression vers l’AGI passe nécessairement par des outils adaptés. Des benchmarks comme ImageNet ou GLUE ont permis des bonds qualitatifs dans leurs domaines respectifs. ARC-AGI pourrait jouer ce même rôle pour le raisonnement abstrait automatisé, si tant est que nous sachions interpréter correctement ses signaux faibles.

Partager cet article
Facebook Whatsapp Whatsapp LinkedIn Reddit Telegram Copy Link

Derniers articles

gemini 3
Gemini 3 de Google, la riposte attendue à ChatGPT 5, pourrait débarquer dès le 22 octobre
Tech & Innovations
battlefield 6
Battlefield 6 explose les ventes mais ajuste déjà le tir après un lancement mouvementé
Consoles & Jeux Vidéo
GTA 6
GTA 6 Trailer 3 : l’indice « 11:08 » affole les fans, une sortie imminente en vue ?
Consoles & Jeux Vidéo
michael saylor bitcoin
Michael Saylor relance la machine Bitcoin et défie les sceptiques
Blockchain & Crypto

Tendance

dogecoin
Dogecoin rebondit grâce à Elon Musk et son nouveau marketplace sur X
Blockchain & Crypto
Solana
Solana franchit un cap historique avec l’approbation de son premier ETF Spot
Blockchain & Crypto
bitcoin hyper
Bitcoin Hyper : le projet qui veut accélérer Bitcoin sans toucher à son architecture
Blockchain & Crypto
Ripple
Ripple mise gros sur l’avenir de XRP avec un fonds d’un milliard de dollars
Blockchain & Crypto
usde depeg
USDe décroche à 0,65 dollar sur Binance, Binance débourse 283 millions en urgence
Blockchain & Crypto

Vous allez aussi aimer

Google AI check pricing
Tech & InnovationsWeb & Internet

Google Search US intègre l’appel par IA pour téléphoner aux entreprises a votre place

18 juillet 2025
Tech transformation numérique
Tech & Innovations

Le Kazakhstan renforce ses ambitions dans les nouvelles technologies

13 juin 2023
Voiture avec intelligence artificielle
Tech & Innovations

General Motors envisage d’équiper ses voitures avec ChatGPT

13 mars 2023
Undetectable AI
Tech & Innovations

Avis sur Undetectable.ai : un « humanizer » fiable ou simple arnaque ?

1 sur 5Très mauvais
ia auto replication
Tech & Innovations

IA Auto-Réplicative : Des experts s’inquiètent d’une intelligence hors de contrôle

19 février 2025
MidJourney
Tech & Innovations

MidJourney a suspendu les essais gratuits suite à des abus

8 avril 2023
Openai o1
Tech & Innovations

Openai lance o1, son nouveau modèle d’IA « capable de raisonner »

13 septembre 2024
AppleGPT
Tech & Innovations

IA : Apple prépare en secret AppleGPT pour concurrencer ChatGPT

21 juillet 2023

Infos légales

  • Mentions légales
  • Politique de confidentialité
  • Nous contacter
  • Partenaires

Maj récentes

peaky blinders
Peaky Blinders : La série refuse obstinément de mourir et rempile pour deux saisons
Films & Séries
netflix
Netflix octobre 2025 : une avalanche de nouveautés entre thrillers, classiques et créations originales
Films & Séries
pikachu sora 2
Sora 2 d’OpenAI : la machine à violations de copyright qui affole tout Hollywood
Tech & Innovations
iOS 26
iOS 26 : Entre promesses grandioses et exécution chaotique, le fiasco
Mobiles & Apps

Qui sommes nous ?

Le Journal du Web alias JDW a été fondé et est édité par des passionnés par l’univers web, nouvelles technologies et de la culture populaire.

Newsletter
Inscrivez-vous à notre newsletter pour recevoir nos derniers articles!
Suivez-nous
adbanner
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?