Google affine sa mécanique d’intelligence artificielle avec Gemini 3.1, une génération qui segmente désormais ses modèles selon la densité des besoins et la facture énergétique des serveurs. Gemini 3.1 Flash-Lite, lancé en préversion sur AI Studio et Vertex AI, affiche un tarif de 0,25 dollar pour un million de tokens en entrée et 1,50 dollar pour un million en sortie. Le modèle, deux fois et demie plus rapide que 2.5 Flash, atteint un score Elo de 1432 sur Arena.ai et 86,9 % sur GPQA Diamond. Il s’adresse aux flux massifs de traduction, de modération ou de génération d’interfaces où la latence devient un goulet d’étranglement.
Gemini 3.1 Pro, déployé simultanément sur l’écosystème Google, élève la barre du raisonnement machine. Sur ARC-AGI-2, il obtient 77,1 %, soit plus du double de la version précédente. Le modèle, accessible via Gemini API, Vertex AI, NotebookLM et l’application Gemini, traduit des requêtes abstraites en code fonctionnel. Il a déjà produit des animations SVG, des tableaux de bord aérospatiaux et des prototypes interactifs exploitant la télémétrie de l’ISS. L’équipe de développement parle d’un « socle d’intelligence appliquée » capable de relier des API hétérogènes à des interfaces manipulables.
Les abonnés Google AI Pro et Ultra bénéficient désormais de crédits Cloud intégrés, 10 dollars pour le premier palier et 100 dollars pour le second. L’initiative vise à raccourcir la distance entre le prototype et la mise en production. Le parcours se déroule sans rupture entre AI Studio, Antigravity et Vertex AI, ce qui permet de tester, déployer et scaler sans friction.
Il y a dans ce recentrage une volonté de rendre l’IA générative économiquement soutenable tout en gardant la main sur la chaîne de valeur. Google, en liant ses modèles à ses infrastructures, verrouille peut-être un peu plus son écosystème… du moins jusqu’à la prochaine itération.

