Z.ai, la startup pékinoise issue de l’université Tsinghua et anciennement connue sous le nom de Zhipu AI, a dévoilé le 14 juin 2026 son nouveau fleuron, GLM-5.2, un modèle de langage de 753 milliards de paramètres publié sous licence MIT et taillé pour les tâches de programmation autonome de longue haleine. Quatrième itération de la famille GLM-5 en quatre mois à peine, ce poids lourd open source vient bousculer une hiérarchie que l’on croyait encore réservée aux laboratoires propriétaires américains.
Les benchmarks parlent d’eux mêmes. Sur SWE-bench Pro, le test de référence en ingénierie logicielle, GLM-5.2 affiche un score de 62,1 contre 58,6 pour le GPT-5.5 d’OpenAI. Sur FrontierSWE, conçu pour mesurer la capacité à mener des tâches de développement sur plusieurs heures, le modèle chinois atteint 74,4 % et dépasse là encore GPT-5.5 (72,6 %), tout en talonnant le Claude Opus 4.8 d’Anthropic (75,1 %). Sur le benchmark collaboratif Design Arena, GLM-5.2 s’est même hissé à la première place mondiale avec un score ELO de 1 360, surpassant le très médiatisé Claude Fable 5. Seul le Terminal-Bench 2.1 lui résiste encore, où il termine à 81,0 contre 85,0 pour Claude Opus 4.8.

La fenêtre de contexte a été multipliée par cinq par rapport au GLM-5.1, passant de 200 000 à un million de tokens. En termes concrets, un développeur peut désormais charger l’intégralité d’un codebase de taille moyenne dans la mémoire du modèle, fichiers sources, tests et documentation compris, sans jamais avoir à découper ni résumer. Cette prouesse repose largement sur une innovation architecturale baptisée IndexShare, qui mutualise un seul indexeur pour quatre couches d’attention sparse successives et réduit ainsi la charge de calcul par token d’un facteur 2,9. Le modèle embarque également un système de prédiction multi-tokens amélioré pour le décodage spéculatif, augmentant de 20 % la longueur des séquences acceptées lors de l’inférence.
L’argument tarifaire est peut-être encore plus dévastateur que les performances pures. L’accès API au GLM-5.2 est facturé 1,40 dollar par million de tokens en entrée et 4,40 dollars en sortie, soit un coût total de 5,80 dollars là où GPT-5.5 exige 35 dollars et Claude Opus 4.8 réclame 30 dollars. Pour les développeurs individuels, Z.ai propose en parallèle un abonnement « Coding Plan » démarrant à 12,60 dollars par mois, avec intégration native dans plus de vingt environnements de développement, dont Claude Code, Cline et Kilo Code. L’équipe de Cline IDE a d’ailleurs salué l’arrivée du modèle en ces termes « GLM-5.2 est le premier modèle open weights à franchir les 80 % sur Terminal-Bench, et bat tous les autres modèles ouverts disponibles. Il bat aussi Gemini, ce qui en fait un modèle de niveau frontier pour une fraction du coût. »
La licence MIT constitue l’arme stratégique la plus redoutable de cette offensive. Contrairement aux licences à usage restreint qui encadrent la plupart des modèles concurrents, elle autorise toute entreprise à télécharger les poids depuis Hugging Face, à les modifier librement et à les déployer commercialement sans redevance ni contrainte géographique. Cette liberté totale prend une résonance particulière depuis que le département du Commerce américain a imposé la semaine précédente des restrictions à l’exportation interdisant aux ressortissants étrangers d’utiliser Claude Fable 5, poussant Anthropic à retirer purement et simplement le modèle de ses serveurs pour l’ensemble de ses utilisateurs. Tang Jie, cofondateur de Z.ai, a directement fait allusion à cet épisode en déclarant que l’intelligence artificielle devait rester « ouverte, accessible et prête à construire ».
Z.ai est d’ailleurs devenue en janvier 2026 la première entreprise spécialisée dans les modèles fondationnels à entrer en Bourse, avec une introduction à Hong Kong valorisant la société à environ 6,6 milliards de dollars. Soutenue par Alibaba, Tencent, Meituan et le fonds saoudien Prosperity7 Ventures, la firme occupe déjà la troisième place du marché chinois des grands modèles de langage selon IDC. Son rythme de publication, quatre modèles de niveau frontier en quatre mois, égale ou surpasse celui de n’importe quel laboratoire occidental.
Les marges pratiquées par les laboratoires propriétaires américains font désormais l’objet d’un scepticisme grandissant au sein de la communauté technique. Sur X, le commentateur Lisan al Gaib a estimé que « les laboratoires frontier vous arnaquent absolument sur la tarification API », soulignant que des modèles ouverts de taille comparable fonctionnent de manière rentable sans recourir aux dernières puces Blackwell et suggérant des marges dépassant les 90 % chez les acteurs fermés. L’argument a touché un nerf.
GLM-5.2 propose enfin deux modes de raisonnement sélectionnables, « Max » pour pousser l’intelligence du modèle à son plafond (au prix d’environ 85 000 tokens de sortie par tâche) et « High » pour diviser cette consommation par deux en ne sacrifiant que quelques points de performance. Ce levier d’optimisation, qui permet aux entreprises de calibrer finement le compromis entre qualité et latence, illustre bien la philosophie de Z.ai… donner aux développeurs le contrôle total, du code source jusqu’à la facture.
Reste à savoir combien de temps les géants de la Silicon Valley pourront justifier des tarifs six fois supérieurs pour des performances parfois inférieures, à l’heure où le code source du concurrent est en libre accès sur Hugging Face.

