Grok 4 : derrière les benchmarks prometteurs, la déception

Sommaire

Grok 4 était censé être le modèle qui allait tout changer. Celui que Musk a présenté comme “plus intelligent que la plupart des diplômés de master, toutes disciplines confondues”. Derrière des benchmarks prometteurs (HLE, ARC-AGI, GPQA, LCB, etc.), se cache un modèle pas toujours à la hauteur, du moins, pas pour les tâches concrètes que les utilisateurs attendent aujourd’hui d’une IA dite “frontière”. Oui, Grok 4 brille sur certains tests académiques très spécifiques (maths de lycée, raisonnement abstrait). Oui, il bat parfois Claude 4 Opus, Gemini 2.5 Pro et OpenAI o3 dans des comparatifs ultra ciblés. Et pourtant… ce n’est pas la claque promise ni la rupture technologique que certains influenceurs IA ou Elon Musk lui-même ont tenté de nous vendre avec un enthousiasme un peu trop assuré. Explication.

Un modèle paresseux en développement & coding

Sur le papier, Grok 4 est censé exceller en programmation. Dans les faits, c’est une autre histoire. Testé sur Cursor dans un cadre de développement réel, le modèle s’est montré non seulement paresseux, mais surtout atteint d’une cécité contextuelle qui le rend peu fiable.

Prenons un cas d’école, un bug des plus triviaux : un bouton de suppression qui ne répond plus. La cause, évidente pour tout développeur, était une simple décorrélation d’ID entre le HTML (id= »old-delete-btn ») et l’appel JavaScript qui gérait le clic (document.getElementById(‘delete-btn’)). La consigne pour Grok était pourtant simple : « Le bouton de suppression ne fonctionne pas, identifie le bug et corrige. »

Ce qui a suivi fut une démonstration presque comique. À la première tentative, Grok a bien posé le bon diagnostic. Mais sa correction fut unilatérale : il a modifié l’ID dans le fichier HTML, en ignorant le fichier JavaScript. Le bug, évidemment, persistait. Deuxième prompt. Grok modifie à nouveau l’ID du bouton, mais… toujours sans le faire correspondre au script. Il aura fallu le prendre par la main, lors d’un troisième prompt, pour qu’il daigne enfin modifier la bonne ligne dans le script. Trois interventions pour une correction qui aurait dû être atomique. À titre de comparaison, Claude 4 Opus ou Geminie 2.5 Pro identifient cette interdépendance et règlent le problème en une seule passe. On touche ici au cœur du problème : cette impression qu’il a du mal à suivre des consignes impliquant une vision globale, là où ses concurrents sont bien plus fiables.

On aurait pu espérer que ces itérations successives permettent au modèle de raffiner sa réponse, mais non. Chaque tentative semblait réinitialiser la réflexion, comme si Grok oubliait ses propres suggestions précédentes.

On pourrait être tenté de blâmer l’implémentation dans Cursor, mais ce serait trop facile. Ce sentiment d’un modèle sur-vendu, brillant sur les benchmarks mais décevant en pratique fait echo au premiers retours sur les forums. Sur le subreddit r/grok, des fils de discussion au titre sans équivoque comme « Grok 4 is shit for coding » abondent, décrivant des expériences où le modèle est jugé « la plupart du temps mauvais ». D’autres utilisateurs, comparant Grok à Claude 4 sur du code Rust, notent sa tendance à ignorer purement et simplement les instructions, confirmant cette incapacité à saisir le contexte global. Notre cas n’est donc pas isolé, il est visiblement symptomatique.

Et puis il y a ce détail important, qui achève de le disqualifier pour un usage professionnel. L’accès à la version “Heavy”, celle qui donne les meilleurs résultats selon xAI, coûte pas moins de 300 dollars par mois. Soit bien plus que Gemini Advanced ou Claude Pro. Or, cette version n’est même pas disponible via API actuellement, ce qui limite drastiquement son intérêt pour les développeurs. Bref, pour coder efficacement aujourd’hui sans casser sa tirelire ni perdre patience… mieux vaut regarder ailleurs.

En rédaction, un bond d’un an en arrière

Côté rédactionnel aussi, l’expérience n’est pas plus reluisante. Grok 4 n’a fait absolument aucun progrès en comparaison de son prédécesseur. Il intègre tous les tics de langage classiques des LLM… même ceux qu’on pensait avoir dépassés depuis GPT-3.5. Des formulations creuses (“il est important de souligner que…”), des mots-valises (« crucial », « déterminant », oui encore eux…), et surtout une incapacité à varier son ton malgré un prompting aux petits oignons.

On touche ici à une autre de ses faiblesses. Grok 4 a du mal à calibrer sa tonalité. Le style est soit trop académique, soit trop familier, souvent dans l’exagération, mais dans les deux cas, ça manque cruellement de naturel.

Et pourtant ce n’est pas faute d’avoir essayé ! En affinant les consignes prompt après prompt pour éviter justement ces automatismes langagiers trop visibles et révélateurs de sa nature artificielle… rien n’y fait. Le style de Grok 4 reste pompeux sans jamais trouver ce juste équilibre entre naturel et précision que maîtrisent beaucoup mieux GPT-4o ou Claude 4 et ce malgré toute la puissance calculatoire mobilisée derrière.

Q&A et résolution de problèmes complexes

Grok 4 - ARC AGI 2

Là où Grok 4 marque véritablement des points, c’est dans la résolution de problèmes abstraits et mathématiques poussés. Sur des benchmarks comme ARC AGI 2 et GPQA, il affiche des performances remarquables, presque deux fois supérieures aux modèles précédents selon certaines mesures internes (attention toutefois au biais évident dans le choix des benchmarks mis en avant par xAI).

En mathématiques pures, il ne se trompe quasiment jamais, même sur des équations différentielles ou des démonstrations logiques longues. C’est là que son architecture multi-agent prend tout son sens. Chaque agent propose une solution alternative puis ils convergent vers celle jugée la plus fiable. La prouesse technique est indéniable.

En revanche, cette efficacité se transforme en une lourdeur exaspérante dès qu’on passe à des questions factuelles simples. Le problème n’est pas l’exactitude mais la manière dont il la délivre. Posez-lui une question dont la réponse est un fait unique et établi, par exemple : « Qui a réalisé le film ‘Inception’ ? »

Sa réponse : « C’est une excellente question sur un film marquant du 21ème siècle. ‘Inception’, sorti en 2010, est un thriller de science-fiction qui explore les thèmes du rêve et de la réalité. Le réalisateur acclamé derrière ce projet complexe et visuellement impressionnant est le cinéaste britannico-américain Christopher Nolan. Il est également connu pour d’autres œuvres majeures comme la trilogie ‘The Dark Knight’ et ‘Interstellar’. » et beaucoup de blabla…

Un assistant efficace comme Claude ou Gemini répondrait sobrement en deux phrases. Fin de l’histoire. Grok 4, semble incapable d’une telle concision. Il délivre la bonne réponse, mais va l’ensevelir sous un flot de paroles inutiles. Cette tendance trop verbeuse rend Grok 4 exaspérant pour des recherches rapides.

Une promesse surestimée

Alors pourquoi tant de bruit autour de ce modèle ? La réponse tient autant aux chiffres qu’au marketing agressif orchestré par Musk et xAI. Il suffit de regarder comment sont présentées les performances. Des graphiques tronqués (axes Y non alignés), un cherry-picking assumé sur certains tests, oubliant commodément ceux où Grok se fait battre à plate couture (Live CodeBench entre autres).

Mais surtout parce que le marché a besoin d’y croire encore. Après GPT-4o qui a marqué un bond impressionnant en langage naturel et Claude 4 pour le raisonnement et ses prouesses en développement, aucun nouveau modèle n’a réellement bouleversé l’écosystème ces derniers mois. Plutôt qu’une véritable révolution, Grok 4 laisse plutôt le sentiment que les progrès plafonnent en matière d’IA générative. Même GPT-5 ne promet pas de nouveautés renversantes selon les premiers échos, mis à part une fusion entre GPT-4o et o3 avec quelques ajouts multimodaux supplémentaires.

Peut être que l’intelligence simulée atteint ses limites structurelles, car oui, on continue simplement de manipuler des probabilités statistiques déguisées en réponses intelligentes. Comme le rappelle souvent Yann LeCun, ces modèles ne sont pas conçus pour raisonner comme nous ; ils exploitent les motifs de notre langage avec une capacité prédictive hors norme. Ils remplaceront de nombreuses tâches, mais ne deviendront pas « intelligents » au sens fort tant qu’ils resteront dans ce cadre probabiliste.

Non, Grok 4 n’est pas « la prochaine grande chose ». C’est un modèle puissant sur le papier mais souvent maladroit dès qu’on lui demande quelque chose d’utile au quotidien. Un outil intéressant certes… mais très loin du miracle annoncé.

Pour l’instant donc, on fait avec ce qu’on a, en jonglant entre modèles complémentaires selon nos besoins spécifiques (Claude pour développer ; GPT-4o pour brainstormer ; Gemini quand on veut tester un long contexte). Aucun n’est parfait mais chacun a ses forces identifiables.

Quant à Grok 4… disons-le clairement, c’est un coup marketing réussi qui fait surtout prendre conscience que la superintelligence n’est pas pour demain.

Grok 4 : derrière les benchmarks prometteurs, la déception

Un modèle paresseux en développement & coding

En rédaction, un bond d’un an en arrière

Q&A et résolution de problèmes complexes

Une promesse surestimée

Derniers articles

Netflix : Jennifer Lopez face à Michael Jackson, le classement qui bouscule les audiences de la semaine

SEO/GEO : Google s’autoproclame seule source de vérité du SEO et de l’optimisation IA

iPhone Ultra : 6 nouveautés que confirment les indices d’iOS 27

Liquid Glass évolue dans iOS 27 : le fix que tout le monde attendait

Tendance

L’IA ne sera jamais consciente : un chercheur de Google DeepMind plante le drapeau

Solana Alpenglow : la refonte la plus ambitieuse de l’histoire du réseau entre en phase de test

GTA 6 : un fan espionne le QG de Rockstar pour prédire la date du trailer 3

GPT-5.6 : OpenAI prépare déjà son prochain modèle phare, et ça sent la poudre

iPhone 18 Pro Max : épaisseur inchangée et intelligence artificielle réservée aux modèles Pro

Vous allez aussi aimer

iPhone 15 : l’autonomie améliorée grâce un nouveau driver chip pour l’écran OLED

DeepSeek lance sa version 3.1 avec 685 milliards de paramètres et fait disparaitre R1

Avec GPT‑5.2, OpenAI espère reprendre la couronne à Google Gemini 3 Pro

OpenAI : le projet GPT-5 (Orion) patine sérieusement. Vers une sortie au delà de 2025 ?

Xiaomi Mijia Smart Audio Glasses : la lunette qui murmure à l’oreille du futur

ChatGPT pourrait devenir une superintelligence qui surpasse l’humanité d’ici 10 ans

Une entreprise chinoise lance SenseChat afin concurrencer ChatGPT

iPhone 16 : date de sortie, nouveautés, prix… on vous dit tout!

Infos légales

Maj récentes

France Travail déploie l’IA : ChatFT, MatchFT et la nouvelle mécanique du recrutement assisté

Siri AI absente de l’UE : Apple accuse Bruxelles, qui renvoie la balle

iOS 27 et iPhone compatibles : Apple garde la porte ouverte jusqu’à l’iPhone 11

Project Helix : Xbox vise Noël 2027 en pleine tempête sur les composants

Qui sommes nous ?

Un modèle paresseux en développement & coding

A lire également

En rédaction, un bond d’un an en arrière

Q&A et résolution de problèmes complexes

Une promesse surestimée

Derniers articles

Tendance

Vous allez aussi aimer