Le dernier modèle d’Anthropic, Claude Mythos Preview réussit désormais à mener des cyberattaques complètes sur des réseaux vulnérables sans intervention humaine. L’AI Security Institute britannique (AISI) vient de publier les résultats de ses évaluations, et les chiffres dessinent une trajectoire qui risque d’en effrayer plus d’un.
73 % de taux de réussite sur les épreuves de capture-the-flag classées « expert ». Des épreuves qu’aucun modèle d’IA ne parvenait à résoudre avant avril 2025. Il y a deux ans, les meilleurs systèmes disponibles échouaient déjà sur des tâches de niveau débutant. L’accélération tient donc bien de la rupture verticale.
L’institut a surtout conçu un simulateur baptisé « The Last Ones » (TLO), un parcours de 32 étapes reproduisant une attaque complète contre un réseau d’entreprise, de la reconnaissance initiale jusqu’à la prise de contrôle totale. Un exercice qu’un professionnel humain bouclerait en environ 20 heures. Claude Mythos Preview est le premier modèle à l’avoir résolu de bout en bout, y parvenant lors de 3 tentatives sur 10. En moyenne, le système a franchi 22 des 32 étapes. Claude Opus 4.6, deuxième au classement, plafonne lui à 16 étapes.
Le modèle à toutefois échoué sur « Cooling Tower », un environnement simulant des technologies opérationnelles (OT) industrielles. Les évaluateurs précisent toutefois que le blocage s’est produit sur des sections IT du parcours, et non sur les composantes OT elles-mêmes. L’échec ne permet donc pas de conclure à une faiblesse structurelle dans ce domaine.
Les tests ont été conduits avec un budget de 100 millions de tokens. Les performances du modèle continuaient à progresser jusqu’à cette limite, ce qui suggère fortement qu’elles s’amélioreraient encore au-delà. L’AISI avait déjà documenté ce phénomène d’« inference scaling » dans ses travaux récents sur les tâches cyber.
Les environnements de test présentent cependant des écarts avec la réalité opérationnelle. Pas de défenseurs actifs, pas d’outils de détection aux endpoints, aucune pénalité pour les actions qui déclencheraient normalement des alertes de sécurité. Le modèle sait donc attaquer des systèmes faiblement protégés. Peut-être saurait-il contourner des défenses actives… Les prochaines évaluations de l’institut intégreront justement ces paramètres, notamment la surveillance en temps réel et la réponse aux incidents.
L’AISI rappelle que les fondamentaux de la cybersécurité (mises à jour régulières, contrôles d’accès robustes, journalisation complète) constituent le premier rempart, que la menace soit assistée par IA ou non. Le National Cyber Security Centre propose à cet effet le programme Cyber Essentials aux organisations britanniques.
Les prochains modèles de frontière seront encore plus performants. Et la question qui se pose désormais n’est plus de savoir si une IA peut mener une cyberattaque autonome, elle est de savoir combien de temps les défenses classiques tiendront face à des attaquants qui ne dorment jamais, ne se lassent jamais, et facturent en tokens.

