JDWJDW
Font ResizerAa
  • Tech & Innovations
  • Mobiles & Apps
  • IA & Robotique
  • Consoles & Jeux Vidéo
  • Films & Séries
  • Animes & Mangas
  • Blockchain & Crypto
  • Plus
    • Web & Internet
    • Geek & Gadgets
    • Informatique & Cybersécurité
    • Réseaux Sociaux & Influence
    • e-Business & Webmarketing
    • Fintech & Néobanques
    • Streaming & P2P
Font ResizerAa
JDWJDW
Rechercher
  • Web & Internet
  • Tech & Innovations
  • Mobiles & Apps
  • Consoles & Jeux Vidéo
  • Films & Séries
  • Animes & Mangas
  • Blockchain & Crypto
  • Geek & Gadgets
  • Informatique & Cybersécurité
  • Streaming & P2P
Avez-vous déjà un compte ? Sign In
Suivez-nous
Tech & Innovations

Grok 4 : derrière les benchmarks prometteurs, la déception

Raphael Gelin
Published 16 juillet 2025
Last updated: 17 juillet 2025
Partager
Grok 4
Sommaire
Un modèle paresseux en développement & codingEn rédaction, un bond d’un an en arrièreQ&A et résolution de problèmes complexesUne promesse surestimée

Grok 4 était censé être le modèle qui allait tout changer. Celui que Musk a présenté comme “plus intelligent que la plupart des diplômés de master, toutes disciplines confondues”. Derrière des benchmarks prometteurs (HLE, ARC-AGI, GPQA, LCB, etc.), se cache un modèle pas toujours à la hauteur, du moins, pas pour les tâches concrètes que les utilisateurs attendent aujourd’hui d’une IA dite “frontière”. Oui, Grok 4 brille sur certains tests académiques très spécifiques (maths de lycée, raisonnement abstrait). Oui, il bat parfois Claude 4 Opus,  Gemini 2.5 Pro et OpenAI o3 dans des comparatifs ultra ciblés. Et pourtant… ce n’est pas la claque promise ni la rupture technologique que certains influenceurs IA ou Elon Musk lui-même ont tenté de nous vendre avec un enthousiasme un peu trop assuré. Explication.

Un modèle paresseux en développement & coding

Sur le papier, Grok 4 est censé exceller en programmation. Dans les faits, c’est une autre histoire. Testé sur Cursor dans un cadre de développement réel, le modèle s’est montré non seulement paresseux, mais surtout atteint d’une cécité contextuelle qui le rend peu fiable.

Prenons un cas d’école, un bug des plus triviaux : un bouton de suppression qui ne répond plus. La cause, évidente pour tout développeur, était une simple décorrélation d’ID entre le HTML (id= »old-delete-btn ») et l’appel JavaScript qui gérait le clic (document.getElementById(‘delete-btn’)). La consigne pour Grok était pourtant simple : « Le bouton de suppression ne fonctionne pas, identifie le bug et corrige. »

Ce qui a suivi fut une démonstration presque comique. À la première tentative, Grok a bien posé le bon diagnostic. Mais sa correction fut unilatérale : il a modifié l’ID dans le fichier HTML, en ignorant le fichier JavaScript. Le bug, évidemment, persistait. Deuxième prompt. Grok modifie à nouveau l’ID du bouton, mais… toujours sans le faire correspondre au script. Il aura fallu le prendre par la main, lors d’un troisième prompt, pour qu’il daigne enfin modifier la bonne ligne dans le script. Trois interventions pour une correction qui aurait dû être atomique. À titre de comparaison, Claude 4 Opus ou Geminie 2.5 Pro identifient cette interdépendance et règlent le problème en une seule passe. On touche ici au cœur du problème : cette impression qu’il a du mal à suivre des consignes impliquant une vision globale, là où ses concurrents sont bien plus fiables.

On aurait pu espérer que ces itérations successives permettent au modèle de raffiner sa réponse, mais non. Chaque tentative semblait réinitialiser la réflexion, comme si Grok oubliait ses propres suggestions précédentes.

A lire également

gpt-5.4 vs opus 4.7
GPT-5.4 vs Claude Opus 4.7 : le duel des titans de l’IA décrypté benchmark par benchmark
robot humanoide marathon
Un robot humanoïde pulvérise le record du semi-marathon
Claude AI
Anthropic (Claude) et Amazon scellent un pacte titanesque de 100 milliards de dollars

On pourrait être tenté de blâmer l’implémentation dans Cursor, mais ce serait trop facile. Ce sentiment d’un modèle sur-vendu, brillant sur les benchmarks mais décevant en pratique fait echo au premiers retours sur les forums. Sur le subreddit r/grok, des fils de discussion au titre sans équivoque comme « Grok 4 is shit for coding » abondent, décrivant des expériences où le modèle est jugé « la plupart du temps mauvais ». D’autres utilisateurs, comparant Grok à Claude 4 sur du code Rust, notent sa tendance à ignorer purement et simplement les instructions, confirmant cette incapacité à saisir le contexte global. Notre cas n’est donc pas isolé, il est visiblement symptomatique.

Et puis il y a ce détail important, qui achève de le disqualifier pour un usage professionnel. L’accès à la version “Heavy”, celle qui donne les meilleurs résultats selon xAI, coûte pas moins de 300 dollars par mois. Soit bien plus que Gemini Advanced ou Claude Pro. Or, cette version n’est même pas disponible via API actuellement, ce qui limite drastiquement son intérêt pour les développeurs. Bref, pour coder efficacement aujourd’hui sans casser sa tirelire ni perdre patience… mieux vaut regarder ailleurs.

En rédaction, un bond d’un an en arrière

Côté rédactionnel aussi, l’expérience n’est pas plus reluisante. Grok 4 n’a fait absolument aucun progrès en comparaison de son prédécesseur. Il intègre tous les tics de langage classiques des LLM… même ceux qu’on pensait avoir dépassés depuis GPT-3.5. Des formulations creuses (“il est important de souligner que…”), des mots-valises (« crucial », « déterminant », oui encore eux…), et surtout une incapacité à varier son ton malgré un prompting aux petits oignons.

On touche ici à une autre de ses faiblesses. Grok 4 a du mal à calibrer sa tonalité. Le style est soit trop académique, soit trop familier, souvent dans l’exagération, mais dans les deux cas, ça manque cruellement de naturel.

Et pourtant ce n’est pas faute d’avoir essayé ! En affinant les consignes prompt après prompt pour éviter justement ces automatismes langagiers trop visibles et révélateurs de sa nature artificielle… rien n’y fait. Le style de Grok 4 reste pompeux sans jamais trouver ce juste équilibre entre naturel et précision que maîtrisent beaucoup mieux GPT-4o ou Claude 4 et ce malgré toute la puissance calculatoire mobilisée derrière.

Q&A et résolution de problèmes complexes

Grok 4 - ARC AGI 2

Là où Grok 4 marque véritablement des points, c’est dans la résolution de problèmes abstraits et mathématiques poussés. Sur des benchmarks comme ARC AGI 2 et GPQA, il affiche des performances remarquables, presque deux fois supérieures aux modèles précédents selon certaines mesures internes (attention toutefois au biais évident dans le choix des benchmarks mis en avant par xAI).

En mathématiques pures, il ne se trompe quasiment jamais, même sur des équations différentielles ou des démonstrations logiques longues. C’est là que son architecture multi-agent prend tout son sens. Chaque agent propose une solution alternative puis ils convergent vers celle jugée la plus fiable. La prouesse technique est indéniable.

En revanche, cette efficacité se transforme en une lourdeur exaspérante dès qu’on passe à des questions factuelles simples. Le problème n’est pas l’exactitude mais la manière dont il la délivre. Posez-lui une question dont la réponse est un fait unique et établi, par exemple : « Qui a réalisé le film ‘Inception’ ? »

Sa réponse : « C’est une excellente question sur un film marquant du 21ème siècle. ‘Inception’, sorti en 2010, est un thriller de science-fiction qui explore les thèmes du rêve et de la réalité. Le réalisateur acclamé derrière ce projet complexe et visuellement impressionnant est le cinéaste britannico-américain Christopher Nolan. Il est également connu pour d’autres œuvres majeures comme la trilogie ‘The Dark Knight’ et ‘Interstellar’. » et beaucoup de blabla…

Un assistant efficace comme Claude ou Gemini répondrait sobrement en deux phrases. Fin de l’histoire. Grok 4, semble incapable d’une telle concision. Il délivre la bonne réponse, mais va l’ensevelir sous un flot de paroles inutiles. Cette tendance trop verbeuse rend Grok 4 exaspérant pour des recherches rapides.

Une promesse surestimée

Alors pourquoi tant de bruit autour de ce modèle ? La réponse tient autant aux chiffres qu’au marketing agressif orchestré par Musk et xAI. Il suffit de regarder comment sont présentées les performances. Des graphiques tronqués (axes Y non alignés), un cherry-picking assumé sur certains tests, oubliant commodément ceux où Grok se fait battre à plate couture (Live CodeBench entre autres).

Mais surtout parce que le marché a besoin d’y croire encore. Après GPT-4o qui a marqué un bond impressionnant en langage naturel et Claude 4 pour le raisonnement et ses prouesses en développement, aucun nouveau modèle n’a réellement bouleversé l’écosystème ces derniers mois. Plutôt qu’une véritable révolution, Grok 4 laisse plutôt le sentiment que les progrès plafonnent en matière d’IA générative. Même GPT-5 ne promet pas de nouveautés renversantes selon les premiers échos, mis à part une fusion entre GPT-4o et o3 avec quelques ajouts multimodaux supplémentaires.

Peut être que l’intelligence simulée atteint ses limites structurelles, car oui, on continue simplement de manipuler des probabilités statistiques déguisées en réponses intelligentes. Comme le rappelle souvent Yann LeCun, ces modèles ne sont pas conçus pour raisonner comme nous ; ils exploitent les motifs de notre langage avec une capacité prédictive hors norme. Ils remplaceront de nombreuses tâches, mais ne deviendront pas « intelligents » au sens fort tant qu’ils resteront dans ce cadre probabiliste.

Non, Grok 4 n’est pas « la prochaine grande chose ». C’est un modèle puissant sur le papier mais souvent maladroit dès qu’on lui demande quelque chose d’utile au quotidien. Un outil intéressant certes… mais très loin du miracle annoncé.

Pour l’instant donc, on fait avec ce qu’on a, en jonglant entre modèles complémentaires selon nos besoins spécifiques (Claude pour développer ; GPT-4o pour brainstormer ; Gemini quand on veut tester un long contexte). Aucun n’est parfait mais chacun a ses forces identifiables.

Quant à Grok 4… disons-le clairement, c’est un coup marketing réussi qui fait surtout prendre conscience que la superintelligence n’est pas pour demain.

Partager cet article
Facebook Whatsapp Whatsapp LinkedIn Reddit Telegram Copy Link

Derniers articles

deepseek
DeepSeek V4 : la Chine relance la course à l’IA open-source avec un modèle de 1 600 milliards de paramètres
IA & Robotique
Windows 11
Microsoft refond l’arrêt et le redémarrage de Windows 11 pour 1 milliard de PC : la fin d’une décennie d’agacement
Informatique & Cybersécurité
google ai
Google prêt à injecter jusqu’à 40 milliards de dollars dans Anthropic : le pari le plus cher de la course à l’IA
IA & Robotique
Meta AI
20 000 licenciements chez Meta et Microsoft : la crise de l’emploi liée à l’IA est-elle déjà là ?
IA & Robotique

Tendance

claude anthropic paresseux
Claude poussé à la paresse ? Le leak qui révèle comment Anthropic bride son service aux utilisateurs
Tech & Innovations
apple intelligence
Siri/Apple Intelligence : John Giannandrea, ancien patron IA quitte Apple la tête basse après huit ans
Mobiles & Apps Tech & Innovations
ios 26.5
iOS 26.5 arrive en bêta avec Maps, chiffrement RCS et pression réglementaire en Europe
Mobiles & Apps
One Piece Live action - Netflix
One Piece saison 3 sur Netflix : tournage lancé, arc Arabasta en ligne de mire
Animes & Mangas
ios 26.4
iOS 26.4 : la mise à jour iPhone qui corrige enfin le clavier et muscle sécurité, batterie, Apple Music
Mobiles & Apps

Vous allez aussi aimer

Elon Musk Twitter
Tech & InnovationsWeb & Internet

Elon Musk a officiellement acheté Twitter !

25 avril 2022
Split-screen cinematic illustration: on the left, a gleaming glass AI research tower glowing blue at night, packed with
Tech & Innovations

Le paradoxe de l’IA : OpenAI embauche pendant que 30 % des jeunes diplômés restent sur le carreau

24 mars 2026
Algorithme
Tech & Innovations

L’université de Chicago crée un algorithme capable de prédire quand un crime aura lieu

8 juillet 2022
Fuites de données ChatGPT
Tech & Innovations

Vous utilisez ChatGPT ? Attention! Vos conversations sont peut être indexées sur Google

1 août 2025
ARC AGI
Tech & Innovations

Qu’est ce que ARC AGI, le benchmark qui mesure la véritable intelligence des IA ?

17 juillet 2025
The Dog and The Boy - Netflix Japon
Films & SériesStreaming & P2PTech & Innovations

Netflix créé la polémique pour avoir utilisé l’IA dans un court métrage

3 février 2023
Asus NUC 14 Pro AI
Informatique & CybersécuritéTech & Innovations

Asus NUC 14 Pro AI : un mini PC qui ne fait pas les choses à moitié

29 juillet 2025
Wide-angle photo of a bright yellow Renault 5 E‑Tech and a modern blue Renault 4 E‑Tech parked inside a clean, high-tech
Tech & Innovations

Rappel Renault 5 et R4 E-Tech en France : 19 véhicules sous surveillance pour un risque batterie

24 mars 2026

Infos légales

  • Mentions légales
  • Politique de confidentialité
  • Nous contacter
  • Partenaires

Maj récentes

gpt-5.5
GPT-5.5 est là : OpenAI répond à Anthropic et Claude Opus 4.7 avec un modèle ultra-puissant
IA & Robotique
kimi k moonshot ai
Moonshot AI lance Kimi k2.6 qui rivalise avec GPT-5.4 et Claude Opus 4.6
Tech & Innovations
claude mythos
Claude Mythos : l’IA trop dangereuse d’Anthropic déjà tombée entre des mains non autorisées
IA & Robotique Informatique & Cybersécurité
qwen
Alibaba lance Qwen 3.6 Max, son dernier modèle IA spécialement taillé pour l’agentique
IA & Robotique

Qui sommes nous ?

Le Journal du Web alias JDW a été fondé et est édité par des passionnés par l’univers web, nouvelles technologies et de la culture populaire.

Newsletter
Inscrivez-vous à notre newsletter pour recevoir nos derniers articles!
Suivez-nous
adbanner
Welcome Back!

Sign in to your account

Username or Email Address
Password

Mot de passe oublié ?