JDWJDW
Font ResizerAa
  • Web & Internet
  • Tech & Innovations
  • Mobiles & Apps
  • Consoles & Jeux Vidéo
  • Films & Séries
  • Animes & Mangas
  • Blockchain & Crypto
  • Plus
    • Informatique & Cybersécurité
    • Geek & Gadgets
    • Réseaux Sociaux & Influence
    • e-Business & Webmarketing
    • Fintech & Néobanques
    • Streaming & P2P
Font ResizerAa
JDWJDW
Rechercher
  • Web & Internet
  • Tech & Innovations
  • Mobiles & Apps
  • Consoles & Jeux Vidéo
  • Films & Séries
  • Animes & Mangas
  • Blockchain & Crypto
  • Geek & Gadgets
  • Informatique & Cybersécurité
  • Streaming & P2P
Have an existing account? Sign In
Suivez-nous
Tech & Innovations

Grok 4 : derrière les benchmarks prometteurs, la déception

Last updated: 17 juillet 2025 17h38
Raphael Gelin
Published 16 juillet 2025
Partager
Grok 4
Sommaire
Un modèle paresseux en développement & codingEn rédaction, un bond d’un an en arrièreQ&A et résolution de problèmes complexesUne promesse surestimée

Grok 4 était censé être le modèle qui allait tout changer. Celui que Musk a présenté comme “plus intelligent que la plupart des diplômés de master, toutes disciplines confondues”. Derrière des benchmarks prometteurs (HLE, ARC-AGI, GPQA, LCB, etc.), se cache un modèle pas toujours à la hauteur, du moins, pas pour les tâches concrètes que les utilisateurs attendent aujourd’hui d’une IA dite “frontière”. Oui, Grok 4 brille sur certains tests académiques très spécifiques (maths de lycée, raisonnement abstrait). Oui, il bat parfois Claude 4 Opus,  Gemini 2.5 Pro et OpenAI o3 dans des comparatifs ultra ciblés. Et pourtant… ce n’est pas la claque promise ni la rupture technologique que certains influenceurs IA ou Elon Musk lui-même ont tenté de nous vendre avec un enthousiasme un peu trop assuré. Explication.

Un modèle paresseux en développement & coding

Sur le papier, Grok 4 est censé exceller en programmation. Dans les faits, c’est une autre histoire. Testé sur Cursor dans un cadre de développement réel, le modèle s’est montré non seulement paresseux, mais surtout atteint d’une cécité contextuelle qui le rend peu fiable.

Prenons un cas d’école, un bug des plus triviaux : un bouton de suppression qui ne répond plus. La cause, évidente pour tout développeur, était une simple décorrélation d’ID entre le HTML (id= »old-delete-btn ») et l’appel JavaScript qui gérait le clic (document.getElementById(‘delete-btn’)). La consigne pour Grok était pourtant simple : « Le bouton de suppression ne fonctionne pas, identifie le bug et corrige. »

Ce qui a suivi fut une démonstration presque comique. À la première tentative, Grok a bien posé le bon diagnostic. Mais sa correction fut unilatérale : il a modifié l’ID dans le fichier HTML, en ignorant le fichier JavaScript. Le bug, évidemment, persistait. Deuxième prompt. Grok modifie à nouveau l’ID du bouton, mais… toujours sans le faire correspondre au script. Il aura fallu le prendre par la main, lors d’un troisième prompt, pour qu’il daigne enfin modifier la bonne ligne dans le script. Trois interventions pour une correction qui aurait dû être atomique. À titre de comparaison, Claude 4 Opus ou Geminie 2.5 Pro identifient cette interdépendance et règlent le problème en une seule passe. On touche ici au cœur du problème : cette impression qu’il a du mal à suivre des consignes impliquant une vision globale, là où ses concurrents sont bien plus fiables.

On aurait pu espérer que ces itérations successives permettent au modèle de raffiner sa réponse, mais non. Chaque tentative semblait réinitialiser la réflexion, comme si Grok oubliait ses propres suggestions précédentes.

A lire également

OnlyFans
OnlyFans : derrière les promesses d’argent facile, la désillusion pour 95% des créateurs
GTA 6
GTA 6 : 7,6 milliards de recettes, la promesse d’un lancement qui va pulvériser tous les records
Intelligence artificielle : Les 40 métiers les plus menacés d’après une étude choc de Microsoft

On pourrait être tenté de blâmer l’implémentation dans Cursor, mais ce serait trop facile. Ce sentiment d’un modèle sur-vendu, brillant sur les benchmarks mais décevant en pratique fait echo au premiers retours sur les forums. Sur le subreddit r/grok, des fils de discussion au titre sans équivoque comme « Grok 4 is shit for coding » abondent, décrivant des expériences où le modèle est jugé « la plupart du temps mauvais ». D’autres utilisateurs, comparant Grok à Claude 4 sur du code Rust, notent sa tendance à ignorer purement et simplement les instructions, confirmant cette incapacité à saisir le contexte global. Notre cas n’est donc pas isolé, il est visiblement symptomatique.

Et puis il y a ce détail important, qui achève de le disqualifier pour un usage professionnel. L’accès à la version “Heavy”, celle qui donne les meilleurs résultats selon xAI, coûte pas moins de 300 dollars par mois. Soit bien plus que Gemini Advanced ou Claude Pro. Or, cette version n’est même pas disponible via API actuellement, ce qui limite drastiquement son intérêt pour les développeurs. Bref, pour coder efficacement aujourd’hui sans casser sa tirelire ni perdre patience… mieux vaut regarder ailleurs.

En rédaction, un bond d’un an en arrière

Côté rédactionnel aussi, l’expérience n’est pas plus reluisante. Grok 4 n’a fait absolument aucun progrès en comparaison de son prédécesseur. Il intègre tous les tics de langage classiques des LLM… même ceux qu’on pensait avoir dépassés depuis GPT-3.5. Des formulations creuses (“il est important de souligner que…”), des mots-valises (« crucial », « déterminant », oui encore eux…), et surtout une incapacité à varier son ton malgré un prompting aux petits oignons.

On touche ici à une autre de ses faiblesses. Grok 4 a du mal à calibrer sa tonalité. Le style est soit trop académique, soit trop familier, souvent dans l’exagération, mais dans les deux cas, ça manque cruellement de naturel.

Et pourtant ce n’est pas faute d’avoir essayé ! En affinant les consignes prompt après prompt pour éviter justement ces automatismes langagiers trop visibles et révélateurs de sa nature artificielle… rien n’y fait. Le style de Grok 4 reste pompeux sans jamais trouver ce juste équilibre entre naturel et précision que maîtrisent beaucoup mieux GPT-4o ou Claude 4 et ce malgré toute la puissance calculatoire mobilisée derrière.

Q&A et résolution de problèmes complexes

Grok 4 - ARC AGI 2

Là où Grok 4 marque véritablement des points, c’est dans la résolution de problèmes abstraits et mathématiques poussés. Sur des benchmarks comme ARC AGI 2 et GPQA, il affiche des performances remarquables, presque deux fois supérieures aux modèles précédents selon certaines mesures internes (attention toutefois au biais évident dans le choix des benchmarks mis en avant par xAI).

En mathématiques pures, il ne se trompe quasiment jamais, même sur des équations différentielles ou des démonstrations logiques longues. C’est là que son architecture multi-agent prend tout son sens. Chaque agent propose une solution alternative puis ils convergent vers celle jugée la plus fiable. La prouesse technique est indéniable.

En revanche, cette efficacité se transforme en une lourdeur exaspérante dès qu’on passe à des questions factuelles simples. Le problème n’est pas l’exactitude mais la manière dont il la délivre. Posez-lui une question dont la réponse est un fait unique et établi, par exemple : « Qui a réalisé le film ‘Inception’ ? »

Sa réponse : « C’est une excellente question sur un film marquant du 21ème siècle. ‘Inception’, sorti en 2010, est un thriller de science-fiction qui explore les thèmes du rêve et de la réalité. Le réalisateur acclamé derrière ce projet complexe et visuellement impressionnant est le cinéaste britannico-américain Christopher Nolan. Il est également connu pour d’autres œuvres majeures comme la trilogie ‘The Dark Knight’ et ‘Interstellar’. » et beaucoup de blabla…

Un assistant efficace comme Claude ou Gemini répondrait sobrement en deux phrases. Fin de l’histoire. Grok 4, semble incapable d’une telle concision. Il délivre la bonne réponse, mais va l’ensevelir sous un flot de paroles inutiles. Cette tendance trop verbeuse rend Grok 4 exaspérant pour des recherches rapides.

Une promesse surestimée

Alors pourquoi tant de bruit autour de ce modèle ? La réponse tient autant aux chiffres qu’au marketing agressif orchestré par Musk et xAI. Il suffit de regarder comment sont présentées les performances. Des graphiques tronqués (axes Y non alignés), un cherry-picking assumé sur certains tests, oubliant commodément ceux où Grok se fait battre à plate couture (Live CodeBench entre autres).

Mais surtout parce que le marché a besoin d’y croire encore. Après GPT-4o qui a marqué un bond impressionnant en langage naturel et Claude 4 pour le raisonnement et ses prouesses en développement, aucun nouveau modèle n’a réellement bouleversé l’écosystème ces derniers mois. Plutôt qu’une véritable révolution, Grok 4 laisse plutôt le sentiment que les progrès plafonnent en matière d’IA générative. Même GPT-5 ne promet pas de nouveautés renversantes selon les premiers échos, mis à part une fusion entre GPT-4o et o3 avec quelques ajouts multimodaux supplémentaires.

Peut être que l’intelligence simulée atteint ses limites structurelles, car oui, on continue simplement de manipuler des probabilités statistiques déguisées en réponses intelligentes. Comme le rappelle souvent Yann LeCun, ces modèles ne sont pas conçus pour raisonner comme nous ; ils exploitent les motifs de notre langage avec une capacité prédictive hors norme. Ils remplaceront de nombreuses tâches, mais ne deviendront pas « intelligents » au sens fort tant qu’ils resteront dans ce cadre probabiliste.

Non, Grok 4 n’est pas « la prochaine grande chose ». C’est un modèle puissant sur le papier mais souvent maladroit dès qu’on lui demande quelque chose d’utile au quotidien. Un outil intéressant certes… mais très loin du miracle annoncé.

Pour l’instant donc, on fait avec ce qu’on a, en jonglant entre modèles complémentaires selon nos besoins spécifiques (Claude pour développer ; GPT-4o pour brainstormer ; Gemini quand on veut tester un long contexte). Aucun n’est parfait mais chacun a ses forces identifiables.

Quant à Grok 4… disons-le clairement, c’est un coup marketing réussi qui fait surtout prendre conscience que la superintelligence n’est pas pour demain.

Partager cet article
Facebook Whatsapp Whatsapp LinkedIn Reddit Telegram Copy Link

Derniers articles

ps6 vs xbox helix
PS6 vs Xbox Helix : la bataille du ray tracing et de l’IA graphique s’annonce totale
Consoles & Jeux Vidéo
crimson desert
Crimson Desert sous Denuvo fait grincer les claviers à une semaine du lancement
Consoles & Jeux Vidéo
Futuristic tech illustration of a glowing red-and-gold HarmonyOS logo at the center of a vast digital ecosystem, radiati
Huawei frôle le milliard d’appareils sous HarmonyOS et s’émancipe du duo Windows-Chrome
Mobiles & Apps
gemini 3
Gemini 3.1 : Google muscle sa stratégie IA entre vitesse, coûts maîtrisés et usages intégrés
Tech & Innovations

Tendance

solana
Solana capte l’usage réel et s’installe comme pilier du nouvel ordre onchain
Blockchain & Crypto
GTA 6
GTA 6 sur le PlayStation Store relance les spéculations autour des précommandes
Consoles & Jeux Vidéo
gta 6
GTA 6 Take-Two verrouille le 19 novembre 2026 et enclenche la campagne marketing estivale
Consoles & Jeux Vidéo
war machine netflix
Netflix pulvérise les records avec War Machine et confirme sa suprématie sur le streaming spectacle
Films & Séries
iphone 18 fold concept
iPhone 18 Fold : la rupture que personne n’avait vraiment vue venir
Mobiles & Apps

Vous allez aussi aimer

ChatGPT Agent
Tech & Innovations

OpenAI lance ChatGPT Agent, une IA autonome qui fait tout (ou presque) à votre place

17 juillet 2025
openai audio model
Tech & Innovations

OpenAI AI Voices : Trois nouveaux modèles pour la transcription et les voix synthétiques

23 mars 2025
OpenAI o3
Tech & Innovations

Le modèle OpenAI o3 proche de la SuperIntelligence ? Son score ARC-AGI atteint presque le niveau humain !

27 décembre 2024
OpenAI
Tech & Innovations

ChatGPT : OpenAI présente le mode « incognito » pour améliorer la confidentialité des utilisateurs

30 avril 2023
GPT-5 OpenAI
Tech & Innovations

OpenAI : le projet GPT-5 (Orion) patine sérieusement. Vers une sortie au delà de 2025 ?

22 décembre 2024
GPT-5
Tech & Innovations

GPT-5 : prévu pour cet été, qu’attendre du prochain modèle d’OpenAI?

14 juillet 2025
OpenAI
Tech & Innovations

GPT-5 est déjà dépassé : Sam Altman avoue qu’OpenAI possède des modèles bien plus puissants

19 août 2025
Openai strawberry
Tech & Innovations

OpenAI s’apprête a dévoiler son modèle « Strawberry »

28 août 2024

Infos légales

  • Mentions légales
  • Politique de confidentialité
  • Nous contacter
  • Partenaires

Maj récentes

iOS 26
iOS 26 et correctifs de sécurité Apple, entre refonte visuelle et riposte au kit Coruna
Informatique & Cybersécurité Mobiles & Apps
beef saison 2
Beef saison 2 s’annonce comme le choc social et psychologique du printemps 2026 sur Netflix
Films & Séries
Meta AI
Meta retarde Avocado et perd du terrain dans la bataille des modèles d’IA
Tech & Innovations
virus informatique et ransomware
Spyware et adware : comment les repérer et les éradiquer sans pitié
Informatique & Cybersécurité

Qui sommes nous ?

Le Journal du Web alias JDW a été fondé et est édité par des passionnés par l’univers web, nouvelles technologies et de la culture populaire.

Newsletter
Inscrivez-vous à notre newsletter pour recevoir nos derniers articles!
Suivez-nous
adbanner
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?