GLM 5.2 vs Claude Fable 5 : le modèle open source de Z.ai peut-il vraiment rivaliser avec le flagship retiré d’Anthropic ?

Sommaire

Claude Fable 5 a dominé la quasi-totalité des benchmarks publics pendant sa courte existence, avant qu’Anthropic ne décide de le retirer du marché. GLM 5.2, le dernier flagship open source de Z.ai, se positionne aujourd’hui comme l’alternative la plus ambitieuse dans l’écosystème ouvert, avec une licence MIT sans restriction géographique et un contexte de 1 million de tokens. La question mérite d’être posée frontalement, données en main. Le modèle chinois peut-il tenir tête au monstre d’Anthropic sur les benchmarks qui comptent vraiment ? La réponse, sans surprise pour quiconque suit ce marché de près, n’est pas aussi catgérique qu’on pourrait le penser.

SWE-bench, le juge de paix du code agentique

SWE-bench est devenu le benchmark de référence pour évaluer la capacité d’un modèle à résoudre de vrais bugs dans de vrais dépôts logiciels. Fable 5 y affiche un score de 95.00%, se classant premier sur 64 modèles testés. GLM 5.2 atteint 82.80% et se positionne quatrième du classement, un résultat honorable qui le place devant des dizaines de modèles propriétaires.

L’écart de 12.2 points montre que Fable 5 résolvait les issues GitHub avec une régularité que GLM 5.2 ne parvient pas encore à reproduire. Le modèle de Z.ai excelle sur les tâches d’ingénierie longue (son architecture DSA avec IndexShare réduit les FLOPs par token de 2.9x sur un contexte d’un million de tokens), et ses performances sur FrontierSWE (74.4%) ou Terminal-Bench 2.1 (81.0%) montrent qu’il se rapproche sensiblement d’Opus 4.8 sur les trajectoires complexes. Sur SWE-bench pur, le fossé avec Fable 5 reste trop profond pour parler véritablement de parité.

GPQA Diamond, le test du raisonnement scientifique avancé

GPQA Diamond évalue la capacité d’un modèle à répondre à des questions de niveau doctoral en physique, chimie et biologie. Fable 5 décroche 93.18% (deuxième sur 116 modèles), tandis que GLM 5.2 se situe à 85.61%, vingt-septième du classement.

7.57 points d’écart sur un benchmark aussi discriminant, cela représente un gouffre cognitif. GLM 5.2 performe pourtant très correctement sur AIME 2026 (99.2%) et HMMT Nov. 2025 (94.4%), ce qui suggère que ses capacités de raisonnement mathématique formel sont déjà au niveau de la frontière. Le déficit se manifeste davantage sur le raisonnement scientifique multidisciplinaire, là où Fable 5 bénéficiait probablement d’un entraînement post-training plus agressif sur les corpus académiques. Le classement de GLM 5.2 (27e sur 116) révèle que ce benchmark reste un terrain où les modèles propriétaires conservent un avantage structurel.

LiveCodeBench, l’épreuve du code en temps réel

LiveCodeBench mesure la performance sur des problèmes de programmation compétitive apparus après les dates de coupure d’entraînement, éliminant ainsi toute forme de contamination des données. Fable 5 écrase la compétition avec 89.78%, premier sur 122 modèles. GLM 5.2 tombe à 69.50%, soixante-douzième du même classement.

Ce benchmark est possiblement le plus embarrassant pour Z.ai. Un écart de 20.28 points et une position dans la moitié inférieure du tableau (72e sur 122) ne peuvent pas être maquillés par du marketing. GLM 5.2 se retrouve ici derrière des modèles bien moins médiatisés, ce qui suggère que ses capacités de résolution algorithmique pure, en dehors de l’écosystème agentique où il brille, restent un chantier ouvert. L’architecture optimisée pour les tâches de longue haleine ne compense pas un déficit fondamental en raisonnement algorithmique court et intense.

Vibe Code Bench, le nouveau standard du prototypage rapide

Vibe Code Bench v1.1 évalue la capacité d’un modèle à générer des applications fonctionnelles à partir de descriptions vagues, exactement le type de tâche que des millions de développeurs pratiquent quotidiennement avec des assistants IA. Fable 5 y obtient 90.35% (premier sur 66), GLM 5.2 se place à 63.96% (huitième).

26.39 points séparent les deux modèles. C’est le plus grand écart absolu de toute cette comparaison, et il touche un cas d’usage en pleine explosion commerciale. Quand un développeur demande à un LLM de « construire une app de suivi de dépenses en React », Fable 5 livrait un produit quasi-fini là où GLM 5.2 produit un squelette encore bancal. Pour l’écosystème open source, c’est un avertissement sérieux.

ProofBench, l’arène de la démonstration mathématique

ProofBench teste la capacité d’un modèle à produire des preuves mathématiques formelles. Fable 5 domine avec 77.00% (premier sur 42 modèles). GLM 5.2 chute à 35.00%, neuvième du classement.

L’écart de 42 points est tout simplement le plus spectaculaire de cette analyse. Fable 5 prouvait des théorèmes avec une rigueur que GLM 5.2 ne peut absolument pas approcher à ce stade. Ce résultat met en lumière une faiblesse structurelle dans la chaîne de raisonnement formel du modèle de Z.ai, alors même que ses scores en mathématiques olympiques (AIME 2026 à 99.2%) démontrent une excellente intuition mathématique. Savoir résoudre un problème et savoir le prouver formellement sont manifestement deux compétences distinctes que l’entraînement RL de Z.ai n’a pas encore réconciliées.

MMLU Pro, le thermomètre du savoir encyclopédique

MMLU Pro élargit le test classique MMLU avec des questions à dix choix couvrant des dizaines de domaines académiques. Fable 5 atteint 91.50% (premier sur 115 modèles), GLM 5.2 se positionne à 86.71% (vingt-quatrième).

4.79 points d’écart, c’est paradoxalement le benchmark où GLM 5.2 s’en sort le mieux en termes de proximité relative. Le modèle open source démontre ici une base de connaissances solide, comparable à celle de nombreux modèles propriétaires. Le fait qu’il se classe 24e sur 115, et non premier, reflète davantage la densité de la compétition au sommet qu’un défaut rédhibitoire du modèle.

Les autres benchmarks confirment la tendance

Les benchmarks sectoriels dessinent un tableau homogène. Voici un panorama synthétique des performances comparées.

Benchmark	GLM 5.2	Rang	Fable 5	Rang
Code Migration	37.87%	6/21	55.06%	1/21
CorpFin v2	66.12%	13/116	71.83%	1/116
Finance Agent v2	49.70%	7/28	56.31%	2/28
MedCode	40.77%	28/68	56.07%	2/68
MedScribe	83.53%	16/65	88.52%	1/65
LegalBench	84.07%	23/119	88.56%	1/119
TaxEval v2	73.34%	34/122	76.94%	3/122
Harvey’s Legal Agent	7.08%	3/14	11.25%	1/14

Fable 5 se classe premier ou deuxième sur chaque benchmark sectoriel, sans exception. GLM 5.2 oscille entre la 3e et la 34e position selon les domaines. En médecine (MedCode à 40.77% contre 56.07%), en finance (CorpFin v2 à 66.12% contre 71.83%) et en droit (LegalBench à 84.07% contre 88.56%), le modèle de Z.ai accuse un retard systématique qui varie de 3 à 15 points. La migration de code (37.87% contre 55.06%) représente un autre point faible saillant, avec un écart de 17 points qui pèse lourd pour les entreprises cherchant à moderniser leur stack technique.

Lequel choisir (et peut-on encore choisir ?)

Fable 5 n’est tout simplement plus disponible. Anthropic a retiré le modèle du marché, pour des raisons liées à la sécurité nationale américaine. Ce retrait transforme radicalement l’équation pour les développeurs et les entreprises.

GLM 5.2 est donc aujourd’hui le modèle open source le plus performant sur les tâches de longue haleine, avec des résultats qui le placent entre Claude Opus 4.7 et Opus 4.8 sur les benchmarks agentiques (FrontierSWE à 74.4%, PostTrainBench à 34.3%). Sa licence MIT autorise un déploiement sans restriction, un avantage concurrentiel que les modèles d’Anthropic n’offriront jamais. Les poids du modèle sont disponibles sur HuggingFace, et l’inférence locale fonctionne déjà via vLLM, SGLang ou ktransformers.

Le rapport qualité-prix joue aussi fortement en faveur de GLM 5.2. Le Coding Plan de Z.ai facture le modèle à 3x en heures de pointe (14h-18h UTC+8) et 2x en heures creuses, avec une promotion temporaire à 1x hors pointe jusqu’à fin septembre. Comparez cela aux tarifs d’Opus 4.8 chez Anthropic et le calcul économique penche nettement vers l’offre chinoise pour les équipes qui peuvent tolérer un écart de performance de 10 à 25% selon les tâches.

La leçon de cette confrontation tient finalement en une phrase : GLM 5.2 ne bat pas Fable 5 sur un seul benchmark, et pourtant, c’est GLM 5.2 qui est disponible, déployable localement et gratuit de droits, tandis que Fable 5 n’est plus qu’une ligne dans un tableau de scores historiques. Dans l’IA, le meilleur modèle n’est pas celui qui gagne les benchmarks, c’est celui que vous pouvez effectivement utiliser demain matin.

GLM 5.2 vs Claude Fable 5 : le modèle open source de Z.ai peut-il vraiment rivaliser avec le flagship retiré d’Anthropic ?

SWE-bench, le juge de paix du code agentique

GPQA Diamond, le test du raisonnement scientifique avancé

LiveCodeBench, l’épreuve du code en temps réel

Vibe Code Bench, le nouveau standard du prototypage rapide

ProofBench, l’arène de la démonstration mathématique

MMLU Pro, le thermomètre du savoir encyclopédique

Les autres benchmarks confirment la tendance

Lequel choisir (et peut-on encore choisir ?)

Derniers articles

GLM-5.2 : le nouveau monstre du code open source qui détrône GPT-5.5

L’iPhone 18 Pro à 1 399 dollars : pourquoi le prochain smartphone d’Apple va coûter si cher

GPT-5.6 arrive la semaine prochaine : OpenAI pousse le curseur à 1,5 million de tokens

GTA 6 dévoile sa jaquette officielle et la date de précommande

Tendance

Claude Fable 5 et Mythos 5 c’est fini ! Anthropic débranche ses deux modèles sur ordre de Washington

Windows 11 KB5094126 : la mise à jour de juin 2026 plante des milliers de PC HP et Dell

GPT-5.6 : OpenAI prépare déjà son prochain modèle phare, et ça sent la poudre

Claude Fable 5 de retour sous 48h ? Anthropic tente de ramener son modèle phare coûte que coûte

PS6 : Sony joue la montre pendant que Microsoft fonce tête baissée

Vous allez aussi aimer

Liste des serveurs DNS pour une connexion rapide et sécurisée

5 conseils pour protéger sa vie privée sur internet

Fibre Optique vs Câble Coaxial : Lequel choisir ?

Facebook ajoute un mode silencieux pour mieux gérer son temps

Chrome, Edge et Firefox : les versions 100 pourraient engendrer des problèmes avec certains sites web

Où et comment apprendre le HTML et CSS ?

SEO 2026 : Le guide des erreurs fatales que même les pros commettent encore

WhatsApp Web : comment tchatter avec ses contacts sans application ?

Infos légales

Maj récentes

Pixel Drop de juin 2026 : Gemini, création vidéo et enregistrement d’écran passent à la vitesse supérieure

Apple préparerait trois nouveaux iPhone pour le printemps 2027 : changement de calendrier historique ?

DragonForce détournerait Microsoft Teams pour cacher ses communications malveillantes

CrowdStrike et AWS poussent la sécurité cloud dopée à l’IA : vers des SOC plus automatisés ?

Qui sommes nous ?

SWE-bench, le juge de paix du code agentique

GPQA Diamond, le test du raisonnement scientifique avancé

A lire également

LiveCodeBench, l’épreuve du code en temps réel

Vibe Code Bench, le nouveau standard du prototypage rapide

ProofBench, l’arène de la démonstration mathématique

MMLU Pro, le thermomètre du savoir encyclopédique

Les autres benchmarks confirment la tendance

Lequel choisir (et peut-on encore choisir ?)

Derniers articles

Tendance

Vous allez aussi aimer