Alibaba a dévoilé lundi Qwen 3.6-Max-Preview, le modèle le plus puissant jamais produit par son laboratoire d’intelligence artificielle. Six benchmarks de programmation tombés d’un coup, des scores en hausse sur le raisonnement avancé et la compréhension du monde, et une architecture taillée pour les agents autonomes. Le géant chinois du cloud ne se contente plus de jouer les outsiders.
Une artillerie de benchmarks pulvérisés
Qwen 3.6-Max-Preview s’est hissé en première position sur SWE-bench Pro (ingénierie logicielle en conditions réelles), Terminal-Bench 2.0 (exécution en ligne de commande), SkillsBench (résolution de problèmes généralistes), QwenClawBench (utilisation d’outils), QwenWebBench (interaction web) et SciCode (programmation scientifique). Les gains par rapport à son prédécesseur, Qwen 3.6-Plus, sont bien tangibles. SuperGPQA, qui mesure le raisonnement avancé, progresse de 2,3 %. QwenChineseBench, dédié à la performance en langue chinoise, bondit de 5,3 %. Le score en suivi d’instructions, évalué par ToolcallFormatIFBench, dépasse celui de Claude d’Anthropic.
Artificial Analysis, organisme indépendant de benchmarking, place d’ailleurs le modèle au deuxième rang mondial, juste derrière Muse Spark, et très largement au-dessus de la médiane des modèles de raisonnement comparables dans sa gamme de prix.
Architecture et accès développeur
Le modèle supporte une fenêtre de contexte de 256 000 tokens et traite exclusivement du texte, sans entrée d’image au lancement. Il est accessible via Qwen Studio et l’API Alibaba Cloud Model Studio (sous l’identifiant qwen3.6-max-preview), avec une compatibilité native pour les spécifications OpenAI et Anthropic. Les développeurs peuvent donc l’intégrer dans leurs pipelines existants sans réécriture lourde.
Une fonctionnalité baptisée preserve_thinking conserve les traces de raisonnement d’un tour de conversation à l’autre, ce qui se révèle particulièrement utile pour les tâches agentiques où la continuité du contexte conditionne la qualité de l’exécution. Pour quiconque fait tourner des agents autonomes ou des workflows de génération de code sur la durée, c’est un ajout qui pèse lourd.
Une gamme complète, du cloud au local
La famille Qwen 3.6 couvre désormais tout le spectre. Max-Preview trône au sommet pour les charges de travail les plus exigeantes. Qwen 3.6-Plus, doté d’une fenêtre de contexte d’un million de tokens et de capacités multimodales (raisonnement visuel, compréhension de documents, analyse du monde physique), occupe le segment intermédiaire. Flash vise les tâches où la vitesse prime. Et puis il y a Qwen 3.6-35B-A3B, open source, qui active seulement 3 milliards de paramètres sur ses 35 milliards à chaque inférence… Un choix d’architecture pensé pour réduire drastiquement les coûts de calcul tout en préservant la qualité des sorties, idéal pour le déploiement local.
« Nous pensons que l’avenir de l’IA multimodale ne réside pas uniquement dans la performance sur des tâches isolées, mais dans un soutien holistique aux opérations orientées workflow », a déclaré l’équipe Qwen dans un billet de blog.
Le virage propriétaire d’Alibaba
Qwen 3.6-Max-Preview est un modèle propriétaire, sans poids ouverts. Ce choix tranche avec la stratégie historique d’Alibaba, qui avait bâti l’essor fulgurant de Qwen sur l’accès gratuit et l’open source. Qwen avait d’ailleurs détrôné Llama de Meta comme modèle auto-hébergé le plus déployé au monde, en tout cas avant ce pivot vers la monétisation.
Le mouvement s’inscrit dans une tendance plus large parmi les laboratoires chinois. MiniMax a récemment réécrit sa licence open source pour bloquer l’usage commercial sans autorisation écrite. Alibaba a fermé le tier gratuit de Qwen Code quelques jours avant le lancement de Max-Preview. Les modèles ouverts chinois sont passés de 1,2 % de l’usage mondial fin 2024 à environ 30 % fin 2025, et cette adoption massive sert désormais de levier pour basculer vers des offres payantes.
Qui peut encore prétendre que la course à l’IA de frontière se joue uniquement entre la Californie et le Massachusetts ? Alibaba a explicitement étiqueté Max-Preview comme un travail en cours, avec des gains supplémentaires attendus dans les prochaines versions. Le modèle que le groupe positionne face à GPT-5.4 d’OpenAI et Claude Opus 4.7 d’Anthropic n’a donc même pas encore atteint sa forme définitive.

