JDWJDW
Font ResizerAa
  • Web & Internet
  • Tech & Innovations
  • Mobiles & Apps
  • Consoles & Jeux Vidéo
  • Films & Séries
  • Animes & Mangas
  • Blockchain & Crypto
  • Plus
    • Informatique & Cybersécurité
    • Geek & Gadgets
    • Réseaux Sociaux & Influence
    • e-Business & Webmarketing
    • Fintech & Néobanques
    • Streaming & P2P
Font ResizerAa
JDWJDW
Rechercher
  • Web & Internet
  • Tech & Innovations
  • Mobiles & Apps
  • Consoles & Jeux Vidéo
  • Films & Séries
  • Animes & Mangas
  • Blockchain & Crypto
  • Geek & Gadgets
  • Informatique & Cybersécurité
  • Streaming & P2P
Have an existing account? Sign In
Suivez-nous
Tech & Innovations

Grok 4 : derrière les benchmarks prometteurs, la déception

Last updated: 17 juillet 2025 17h38
Raphael Gelin
Published 16 juillet 2025
Partager
Grok 4
Sommaire
Un modèle paresseux en développement & codingEn rédaction, un bond d’un an en arrièreQ&A et résolution de problèmes complexesUne promesse surestimée

Grok 4 était censé être le modèle qui allait tout changer. Celui que Musk a présenté comme “plus intelligent que la plupart des diplômés de master, toutes disciplines confondues”. Derrière des benchmarks prometteurs (HLE, ARC-AGI, GPQA, LCB, etc.), se cache un modèle pas toujours à la hauteur, du moins, pas pour les tâches concrètes que les utilisateurs attendent aujourd’hui d’une IA dite “frontière”. Oui, Grok 4 brille sur certains tests académiques très spécifiques (maths de lycée, raisonnement abstrait). Oui, il bat parfois Claude 4 Opus,  Gemini 2.5 Pro et OpenAI o3 dans des comparatifs ultra ciblés. Et pourtant… ce n’est pas la claque promise ni la rupture technologique que certains influenceurs IA ou Elon Musk lui-même ont tenté de nous vendre avec un enthousiasme un peu trop assuré. Explication.

Un modèle paresseux en développement & coding

Sur le papier, Grok 4 est censé exceller en programmation. Dans les faits, c’est une autre histoire. Testé sur Cursor dans un cadre de développement réel, le modèle s’est montré non seulement paresseux, mais surtout atteint d’une cécité contextuelle qui le rend peu fiable.

Prenons un cas d’école, un bug des plus triviaux : un bouton de suppression qui ne répond plus. La cause, évidente pour tout développeur, était une simple décorrélation d’ID entre le HTML (id= »old-delete-btn ») et l’appel JavaScript qui gérait le clic (document.getElementById(‘delete-btn’)). La consigne pour Grok était pourtant simple : « Le bouton de suppression ne fonctionne pas, identifie le bug et corrige. »

Ce qui a suivi fut une démonstration presque comique. À la première tentative, Grok a bien posé le bon diagnostic. Mais sa correction fut unilatérale : il a modifié l’ID dans le fichier HTML, en ignorant le fichier JavaScript. Le bug, évidemment, persistait. Deuxième prompt. Grok modifie à nouveau l’ID du bouton, mais… toujours sans le faire correspondre au script. Il aura fallu le prendre par la main, lors d’un troisième prompt, pour qu’il daigne enfin modifier la bonne ligne dans le script. Trois interventions pour une correction qui aurait dû être atomique. À titre de comparaison, Claude 4 Opus ou Geminie 2.5 Pro identifient cette interdépendance et règlent le problème en une seule passe. On touche ici au cœur du problème : cette impression qu’il a du mal à suivre des consignes impliquant une vision globale, là où ses concurrents sont bien plus fiables.

On aurait pu espérer que ces itérations successives permettent au modèle de raffiner sa réponse, mais non. Chaque tentative semblait réinitialiser la réflexion, comme si Grok oubliait ses propres suggestions précédentes.

A lire également

OnlyFans
OnlyFans : derrière les promesses d’argent facile, la désillusion pour 95% des créateurs
GTA 6
GTA 6 : 7,6 milliards de recettes, la promesse d’un lancement qui va pulvériser tous les records
Intelligence artificielle : Les 40 métiers les plus menacés d’après une étude choc de Microsoft

On pourrait être tenté de blâmer l’implémentation dans Cursor, mais ce serait trop facile. Ce sentiment d’un modèle sur-vendu, brillant sur les benchmarks mais décevant en pratique fait echo au premiers retours sur les forums. Sur le subreddit r/grok, des fils de discussion au titre sans équivoque comme « Grok 4 is shit for coding » abondent, décrivant des expériences où le modèle est jugé « la plupart du temps mauvais ». D’autres utilisateurs, comparant Grok à Claude 4 sur du code Rust, notent sa tendance à ignorer purement et simplement les instructions, confirmant cette incapacité à saisir le contexte global. Notre cas n’est donc pas isolé, il est visiblement symptomatique.

Et puis il y a ce détail important, qui achève de le disqualifier pour un usage professionnel. L’accès à la version “Heavy”, celle qui donne les meilleurs résultats selon xAI, coûte pas moins de 300 dollars par mois. Soit bien plus que Gemini Advanced ou Claude Pro. Or, cette version n’est même pas disponible via API actuellement, ce qui limite drastiquement son intérêt pour les développeurs. Bref, pour coder efficacement aujourd’hui sans casser sa tirelire ni perdre patience… mieux vaut regarder ailleurs.

En rédaction, un bond d’un an en arrière

Côté rédactionnel aussi, l’expérience n’est pas plus reluisante. Grok 4 n’a fait absolument aucun progrès en comparaison de son prédécesseur. Il intègre tous les tics de langage classiques des LLM… même ceux qu’on pensait avoir dépassés depuis GPT-3.5. Des formulations creuses (“il est important de souligner que…”), des mots-valises (« crucial », « déterminant », oui encore eux…), et surtout une incapacité à varier son ton malgré un prompting aux petits oignons.

On touche ici à une autre de ses faiblesses. Grok 4 a du mal à calibrer sa tonalité. Le style est soit trop académique, soit trop familier, souvent dans l’exagération, mais dans les deux cas, ça manque cruellement de naturel.

Et pourtant ce n’est pas faute d’avoir essayé ! En affinant les consignes prompt après prompt pour éviter justement ces automatismes langagiers trop visibles et révélateurs de sa nature artificielle… rien n’y fait. Le style de Grok 4 reste pompeux sans jamais trouver ce juste équilibre entre naturel et précision que maîtrisent beaucoup mieux GPT-4o ou Claude 4 et ce malgré toute la puissance calculatoire mobilisée derrière.

Q&A et résolution de problèmes complexes

Grok 4 - ARC AGI 2

Là où Grok 4 marque véritablement des points, c’est dans la résolution de problèmes abstraits et mathématiques poussés. Sur des benchmarks comme ARC AGI 2 et GPQA, il affiche des performances remarquables, presque deux fois supérieures aux modèles précédents selon certaines mesures internes (attention toutefois au biais évident dans le choix des benchmarks mis en avant par xAI).

En mathématiques pures, il ne se trompe quasiment jamais, même sur des équations différentielles ou des démonstrations logiques longues. C’est là que son architecture multi-agent prend tout son sens. Chaque agent propose une solution alternative puis ils convergent vers celle jugée la plus fiable. La prouesse technique est indéniable.

En revanche, cette efficacité se transforme en une lourdeur exaspérante dès qu’on passe à des questions factuelles simples. Le problème n’est pas l’exactitude mais la manière dont il la délivre. Posez-lui une question dont la réponse est un fait unique et établi, par exemple : « Qui a réalisé le film ‘Inception’ ? »

Sa réponse : « C’est une excellente question sur un film marquant du 21ème siècle. ‘Inception’, sorti en 2010, est un thriller de science-fiction qui explore les thèmes du rêve et de la réalité. Le réalisateur acclamé derrière ce projet complexe et visuellement impressionnant est le cinéaste britannico-américain Christopher Nolan. Il est également connu pour d’autres œuvres majeures comme la trilogie ‘The Dark Knight’ et ‘Interstellar’. » et beaucoup de blabla…

Un assistant efficace comme Claude ou Gemini répondrait sobrement en deux phrases. Fin de l’histoire. Grok 4, semble incapable d’une telle concision. Il délivre la bonne réponse, mais va l’ensevelir sous un flot de paroles inutiles. Cette tendance trop verbeuse rend Grok 4 exaspérant pour des recherches rapides.

Une promesse surestimée

Alors pourquoi tant de bruit autour de ce modèle ? La réponse tient autant aux chiffres qu’au marketing agressif orchestré par Musk et xAI. Il suffit de regarder comment sont présentées les performances. Des graphiques tronqués (axes Y non alignés), un cherry-picking assumé sur certains tests, oubliant commodément ceux où Grok se fait battre à plate couture (Live CodeBench entre autres).

Mais surtout parce que le marché a besoin d’y croire encore. Après GPT-4o qui a marqué un bond impressionnant en langage naturel et Claude 4 pour le raisonnement et ses prouesses en développement, aucun nouveau modèle n’a réellement bouleversé l’écosystème ces derniers mois. Plutôt qu’une véritable révolution, Grok 4 laisse plutôt le sentiment que les progrès plafonnent en matière d’IA générative. Même GPT-5 ne promet pas de nouveautés renversantes selon les premiers échos, mis à part une fusion entre GPT-4o et o3 avec quelques ajouts multimodaux supplémentaires.

Peut être que l’intelligence simulée atteint ses limites structurelles, car oui, on continue simplement de manipuler des probabilités statistiques déguisées en réponses intelligentes. Comme le rappelle souvent Yann LeCun, ces modèles ne sont pas conçus pour raisonner comme nous ; ils exploitent les motifs de notre langage avec une capacité prédictive hors norme. Ils remplaceront de nombreuses tâches, mais ne deviendront pas « intelligents » au sens fort tant qu’ils resteront dans ce cadre probabiliste.

Non, Grok 4 n’est pas « la prochaine grande chose ». C’est un modèle puissant sur le papier mais souvent maladroit dès qu’on lui demande quelque chose d’utile au quotidien. Un outil intéressant certes… mais très loin du miracle annoncé.

Pour l’instant donc, on fait avec ce qu’on a, en jonglant entre modèles complémentaires selon nos besoins spécifiques (Claude pour développer ; GPT-4o pour brainstormer ; Gemini quand on veut tester un long contexte). Aucun n’est parfait mais chacun a ses forces identifiables.

Quant à Grok 4… disons-le clairement, c’est un coup marketing réussi qui fait surtout prendre conscience que la superintelligence n’est pas pour demain.

Partager cet article
Facebook Whatsapp Whatsapp LinkedIn Reddit Telegram Copy Link

Derniers articles

gemini 3
Gemini 3 de Google, la riposte attendue à ChatGPT 5, pourrait débarquer dès le 22 octobre
Tech & Innovations
battlefield 6
Battlefield 6 explose les ventes mais ajuste déjà le tir après un lancement mouvementé
Consoles & Jeux Vidéo
GTA 6
GTA 6 Trailer 3 : l’indice « 11:08 » affole les fans, une sortie imminente en vue ?
Consoles & Jeux Vidéo
michael saylor bitcoin
Michael Saylor relance la machine Bitcoin et défie les sceptiques
Blockchain & Crypto

Tendance

dogecoin
Dogecoin rebondit grâce à Elon Musk et son nouveau marketplace sur X
Blockchain & Crypto
Solana
Solana franchit un cap historique avec l’approbation de son premier ETF Spot
Blockchain & Crypto
bitcoin hyper
Bitcoin Hyper : le projet qui veut accélérer Bitcoin sans toucher à son architecture
Blockchain & Crypto
Ripple
Ripple mise gros sur l’avenir de XRP avec un fonds d’un milliard de dollars
Blockchain & Crypto
usde depeg
USDe décroche à 0,65 dollar sur Binance, Binance débourse 283 millions en urgence
Blockchain & Crypto

Vous allez aussi aimer

Voiture avec intelligence artificielle
Tech & Innovations

General Motors envisage d’équiper ses voitures avec ChatGPT

13 mars 2023
Openai o1
Tech & Innovations

Openai lance o1, son nouveau modèle d’IA « capable de raisonner »

13 septembre 2024
SenseTime créateur de SenseChat
Tech & Innovations

Une entreprise chinoise lance SenseChat afin concurrencer ChatGPT

11 avril 2023
openai o3
Tech & Innovations

OpenAI lance o3 et o4-mini et nous fait rentrer pleinement dans l’ère de l’IA agentique

17 avril 2025
GPT-5
Tech & Innovations

GPT-5 : après la hype et l’immense attente, la déception

9 août 2025
pikachu sora 2
Tech & Innovations

Sora 2 d’OpenAI : la machine à violations de copyright qui affole tout Hollywood

4 octobre 2025
Super AI Bot
Tech & Innovations

Top 5 des meilleures alternatives à ChatGPT en Français

22 septembre 2023
intelligence artificielle et jeunes
Tech & Innovations

ChatGPT et le suicide d’Adam Raine : quand l’intelligence artificielle se heurte à ses propres failles

29 août 2025

Infos légales

  • Mentions légales
  • Politique de confidentialité
  • Nous contacter
  • Partenaires

Maj récentes

peaky blinders
Peaky Blinders : La série refuse obstinément de mourir et rempile pour deux saisons
Films & Séries
netflix
Netflix octobre 2025 : une avalanche de nouveautés entre thrillers, classiques et créations originales
Films & Séries
iOS 26
iOS 26 : Entre promesses grandioses et exécution chaotique, le fiasco
Mobiles & Apps
solana
L’heure de Solana a sonné : 500 millions de dollars et un ETF en vue
Blockchain & Crypto

Qui sommes nous ?

Le Journal du Web alias JDW a été fondé et est édité par des passionnés par l’univers web, nouvelles technologies et de la culture populaire.

Newsletter
Inscrivez-vous à notre newsletter pour recevoir nos derniers articles!
Suivez-nous
adbanner
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?