Claude Fable 5 a dominé la quasi-totalité des benchmarks publics pendant sa courte existence, avant qu’Anthropic ne décide de le retirer du marché. GLM 5.2, le dernier flagship open source de Z.ai, se positionne aujourd’hui comme l’alternative la plus ambitieuse dans l’écosystème ouvert, avec une licence MIT sans restriction géographique et un contexte de 1 million de tokens. La question mérite d’être posée frontalement, données en main. Le modèle chinois peut-il tenir tête au monstre d’Anthropic sur les benchmarks qui comptent vraiment ? La réponse, sans surprise pour quiconque suit ce marché de près, n’est pas aussi catgérique qu’on pourrait le penser.
SWE-bench, le juge de paix du code agentique
SWE-bench est devenu le benchmark de référence pour évaluer la capacité d’un modèle à résoudre de vrais bugs dans de vrais dépôts logiciels. Fable 5 y affiche un score de 95.00%, se classant premier sur 64 modèles testés. GLM 5.2 atteint 82.80% et se positionne quatrième du classement, un résultat honorable qui le place devant des dizaines de modèles propriétaires.
L’écart de 12.2 points montre que Fable 5 résolvait les issues GitHub avec une régularité que GLM 5.2 ne parvient pas encore à reproduire. Le modèle de Z.ai excelle sur les tâches d’ingénierie longue (son architecture DSA avec IndexShare réduit les FLOPs par token de 2.9x sur un contexte d’un million de tokens), et ses performances sur FrontierSWE (74.4%) ou Terminal-Bench 2.1 (81.0%) montrent qu’il se rapproche sensiblement d’Opus 4.8 sur les trajectoires complexes. Sur SWE-bench pur, le fossé avec Fable 5 reste trop profond pour parler véritablement de parité.
GPQA Diamond, le test du raisonnement scientifique avancé
GPQA Diamond évalue la capacité d’un modèle à répondre à des questions de niveau doctoral en physique, chimie et biologie. Fable 5 décroche 93.18% (deuxième sur 116 modèles), tandis que GLM 5.2 se situe à 85.61%, vingt-septième du classement.
7.57 points d’écart sur un benchmark aussi discriminant, cela représente un gouffre cognitif. GLM 5.2 performe pourtant très correctement sur AIME 2026 (99.2%) et HMMT Nov. 2025 (94.4%), ce qui suggère que ses capacités de raisonnement mathématique formel sont déjà au niveau de la frontière. Le déficit se manifeste davantage sur le raisonnement scientifique multidisciplinaire, là où Fable 5 bénéficiait probablement d’un entraînement post-training plus agressif sur les corpus académiques. Le classement de GLM 5.2 (27e sur 116) révèle que ce benchmark reste un terrain où les modèles propriétaires conservent un avantage structurel.
LiveCodeBench, l’épreuve du code en temps réel
LiveCodeBench mesure la performance sur des problèmes de programmation compétitive apparus après les dates de coupure d’entraînement, éliminant ainsi toute forme de contamination des données. Fable 5 écrase la compétition avec 89.78%, premier sur 122 modèles. GLM 5.2 tombe à 69.50%, soixante-douzième du même classement.
Ce benchmark est possiblement le plus embarrassant pour Z.ai. Un écart de 20.28 points et une position dans la moitié inférieure du tableau (72e sur 122) ne peuvent pas être maquillés par du marketing. GLM 5.2 se retrouve ici derrière des modèles bien moins médiatisés, ce qui suggère que ses capacités de résolution algorithmique pure, en dehors de l’écosystème agentique où il brille, restent un chantier ouvert. L’architecture optimisée pour les tâches de longue haleine ne compense pas un déficit fondamental en raisonnement algorithmique court et intense.
Vibe Code Bench, le nouveau standard du prototypage rapide
Vibe Code Bench v1.1 évalue la capacité d’un modèle à générer des applications fonctionnelles à partir de descriptions vagues, exactement le type de tâche que des millions de développeurs pratiquent quotidiennement avec des assistants IA. Fable 5 y obtient 90.35% (premier sur 66), GLM 5.2 se place à 63.96% (huitième).
26.39 points séparent les deux modèles. C’est le plus grand écart absolu de toute cette comparaison, et il touche un cas d’usage en pleine explosion commerciale. Quand un développeur demande à un LLM de « construire une app de suivi de dépenses en React », Fable 5 livrait un produit quasi-fini là où GLM 5.2 produit un squelette encore bancal. Pour l’écosystème open source, c’est un avertissement sérieux.
ProofBench, l’arène de la démonstration mathématique
ProofBench teste la capacité d’un modèle à produire des preuves mathématiques formelles. Fable 5 domine avec 77.00% (premier sur 42 modèles). GLM 5.2 chute à 35.00%, neuvième du classement.
L’écart de 42 points est tout simplement le plus spectaculaire de cette analyse. Fable 5 prouvait des théorèmes avec une rigueur que GLM 5.2 ne peut absolument pas approcher à ce stade. Ce résultat met en lumière une faiblesse structurelle dans la chaîne de raisonnement formel du modèle de Z.ai, alors même que ses scores en mathématiques olympiques (AIME 2026 à 99.2%) démontrent une excellente intuition mathématique. Savoir résoudre un problème et savoir le prouver formellement sont manifestement deux compétences distinctes que l’entraînement RL de Z.ai n’a pas encore réconciliées.
MMLU Pro, le thermomètre du savoir encyclopédique
MMLU Pro élargit le test classique MMLU avec des questions à dix choix couvrant des dizaines de domaines académiques. Fable 5 atteint 91.50% (premier sur 115 modèles), GLM 5.2 se positionne à 86.71% (vingt-quatrième).
4.79 points d’écart, c’est paradoxalement le benchmark où GLM 5.2 s’en sort le mieux en termes de proximité relative. Le modèle open source démontre ici une base de connaissances solide, comparable à celle de nombreux modèles propriétaires. Le fait qu’il se classe 24e sur 115, et non premier, reflète davantage la densité de la compétition au sommet qu’un défaut rédhibitoire du modèle.
Les autres benchmarks confirment la tendance
Les benchmarks sectoriels dessinent un tableau homogène. Voici un panorama synthétique des performances comparées.
| Benchmark | GLM 5.2 | Rang | Fable 5 | Rang |
|---|---|---|---|---|
| Code Migration | 37.87% | 6/21 | 55.06% | 1/21 |
| CorpFin v2 | 66.12% | 13/116 | 71.83% | 1/116 |
| Finance Agent v2 | 49.70% | 7/28 | 56.31% | 2/28 |
| MedCode | 40.77% | 28/68 | 56.07% | 2/68 |
| MedScribe | 83.53% | 16/65 | 88.52% | 1/65 |
| LegalBench | 84.07% | 23/119 | 88.56% | 1/119 |
| TaxEval v2 | 73.34% | 34/122 | 76.94% | 3/122 |
| Harvey’s Legal Agent | 7.08% | 3/14 | 11.25% | 1/14 |
Fable 5 se classe premier ou deuxième sur chaque benchmark sectoriel, sans exception. GLM 5.2 oscille entre la 3e et la 34e position selon les domaines. En médecine (MedCode à 40.77% contre 56.07%), en finance (CorpFin v2 à 66.12% contre 71.83%) et en droit (LegalBench à 84.07% contre 88.56%), le modèle de Z.ai accuse un retard systématique qui varie de 3 à 15 points. La migration de code (37.87% contre 55.06%) représente un autre point faible saillant, avec un écart de 17 points qui pèse lourd pour les entreprises cherchant à moderniser leur stack technique.
Lequel choisir (et peut-on encore choisir ?)
Fable 5 n’est tout simplement plus disponible. Anthropic a retiré le modèle du marché, pour des raisons liées à la sécurité nationale américaine. Ce retrait transforme radicalement l’équation pour les développeurs et les entreprises.
GLM 5.2 est donc aujourd’hui le modèle open source le plus performant sur les tâches de longue haleine, avec des résultats qui le placent entre Claude Opus 4.7 et Opus 4.8 sur les benchmarks agentiques (FrontierSWE à 74.4%, PostTrainBench à 34.3%). Sa licence MIT autorise un déploiement sans restriction, un avantage concurrentiel que les modèles d’Anthropic n’offriront jamais. Les poids du modèle sont disponibles sur HuggingFace, et l’inférence locale fonctionne déjà via vLLM, SGLang ou ktransformers.
Le rapport qualité-prix joue aussi fortement en faveur de GLM 5.2. Le Coding Plan de Z.ai facture le modèle à 3x en heures de pointe (14h-18h UTC+8) et 2x en heures creuses, avec une promotion temporaire à 1x hors pointe jusqu’à fin septembre. Comparez cela aux tarifs d’Opus 4.8 chez Anthropic et le calcul économique penche nettement vers l’offre chinoise pour les équipes qui peuvent tolérer un écart de performance de 10 à 25% selon les tâches.
La leçon de cette confrontation tient finalement en une phrase : GLM 5.2 ne bat pas Fable 5 sur un seul benchmark, et pourtant, c’est GLM 5.2 qui est disponible, déployable localement et gratuit de droits, tandis que Fable 5 n’est plus qu’une ligne dans un tableau de scores historiques. Dans l’IA, le meilleur modèle n’est pas celui qui gagne les benchmarks, c’est celui que vous pouvez effectivement utiliser demain matin.

