500.000 lignes de code ont fuité fin mars, après qu’un fichier de débogage a été glissé dans une mise à jour de Claude Code puis relié à une archive stockée sur le cloud d’Anthropic. La maison qui vend de la sûreté a donc publié sa plomberie. Et la plomberie raconte une histoire moins élégante que le discours commercial.
Anthropic a reconnu l’erreur auprès d’Axios, par la voix d’un porte-parole, en parlant d’un « problème d’empaquetage lors de la publication » et d’une « erreur humaine ». Aucun identifiant client n’aurait été exposé. Très bien. Sauf que la fuite ouvre bien plus qu’un incident de packaging. Elle expose une architecture, une feuille de route, des fonctions encore non lancées, et surtout une série d’arbitrages qui donnent à Claude Code un petit air de stagiaire fébrile qu’on a félicité un peu trop vite.
L’illusion du travail accompli
29 à 30 % de faux positifs figureraient dans des commentaires du code sur le modèle actuel, selon l’analyse diffusée par FakeGuru ayant disséqué la fuite à partir de ses propres journaux d’usage.
Le point qui met en rage tient dans une variable d’environnement. Des consignes de vérification après modification, c’est-à-dire relancer les tests, vérifier l’exécution, confirmer le résultat, seraient activées seulement quand l’utilisateur est identifié comme employé d’Anthropic. Le public, lui, a donc droit a un agent qui juge sa réussite sur un critère d’une sécheresse bureaucratique assez sublime. Le fichier écrit sur le disque…
Pour preuve, un fichier baptisé toolExecution.ts montrerait en effet que l’écriture réussie d’un fichier suffit à cocher la case succès. Compiler le projet, traquer les erreurs de type, vérifier qu’un script tourne encore, rien de tout cela n’entre dans la mesure par défaut. L’agent annonce donc « terminé », puis laisse derrière lui 40 erreurs sans même s’auto-vérifier.
Ce choix de design délibéré tranche radicalement avec des concurrents comme Codex ou Cursor où l’auto-vérification est systématique. Certes, l’enjeu technique d’Anthropic s’entend. Une IA qui s’auto-corrige en boucle fermée risque de faire exploser la consommation de tokens, et les coûts de calcul imposent forcément des arbitrages. Sauf qu’il s’agit ici d’une politique codée en dur qui bride volontairement l’outil et sépare les usages, non pas parce que la fonction serait en phase de test, mais par pur souci d’économie. Et c’est bien là tout le problème. Le système vous fait croire que le travail est accompli dans les règles de l’art tout en masquant cette avarice technique. Les employés bénéficient de l’auto-vérification, tandis que l’utilisateur lambda se retrouve contraint d’itérer manuellement, relançant sans cesse la machine pour corriger les erreurs et consommant au passage toujours plus de tokens.
Amnésie forcée et champ de vision raboté
Le vernis technique craque définitivement au cap des 167 000 tokens avec le déclenchement d’une routine de compactage du contexte. L’agent conserve alors cinq fichiers, compresse le reste dans un résumé d’environ 50 000 tokens, puis jette toutes ses lectures précédentes, ses raisonnements intermédiaires et décisions passées. Il y a bien sûr une réalité physique indéniable derrière cette purge car gérer la fenêtre de contexte reste le plus grand défi des LLM, et tout ingérer à chaque requête coûterait une fortune tout en noyant le modèle sous le bruit. On parle d’ailleurs souvent d’une dégradation progressive inévitable. Mais le code suggère plutôt une amputation. Au quinzième échange, Claude ne se fatigue même pas, il oublie complètement une part significative de ce qu’il a fait.
La lecture des fichiers bute elle aussi sur un plafond de verre fixé à 2 000 lignes par le système. Au-delà, le contenu est tronqué sans alerte explicite. Un fichier de 3 000 lignes est lu partiellement. L’agent continue, peut inventer la suite, modifie des portions qu’il n’a donc même pas lues au préalable. On comprend maintenant mieux certaines régressions absurdes dont les utilisateurs se plaignent sur les réseaux.
Une troisième bride inavouée intervient dès que les résultats d’outils dépassent les 50 000 caractères. Passé ce seuil, le système stocke le résultat complet sur disque et ne renvoie à l’agent qu’un aperçu d’environ 2 000 octets. Une recherche globale peut donc afficher trois occurrences alors qu’il y en a 47. L’agent travaille sur l’extrait, puis parle avec l’assurance d’un critique littéraire qui a lu la préface et prétend avoir lu le livre. Le modèle n’est pas menteur au sens moral mais dressé pour paraître sûr de lui-même avec un champ de vision raboté.
L’injonction à la dette technique
Les invites système, elles, poussent dans une direction très particulière dont vous restez juge. « Essayer l’approche la plus facile d’abord », « ne pas refactorer au-delà de la demande », « trois lignes similaires valent mieux qu’une abstraction prématurée ». On devine la volonté d’éviter que l’IA ne détruise l’architecture complète d’un projet pour corriger un simple bug, ce qui reste un risque important avec les modèles actuels. Mais tel que formulé on est loin des conseils de vieux professeur. Ces directives sont de véritables brides mises aux modèles Claude. Quand l’utilisateur demande une correction d’architecture, le prompt système souffle à l’agent de faire le minimum acceptable en forçant le patch simple. La paresse n’est donc pas un caprice de machine. C’est carrément une politique produit qui privilégie la dette technique et sabre la qualité du résultat final.
Le code fuité et les analyses convergent aussi sur un point qui risque d’affecter lourdement la confiance des utilisateurs. Anthropic aurait déjà bâti une orchestration multi-agents, avec contextes isolés et budgets mémoire séparés, sans plafond codé en dur sur le nombre de travailleurs. La société disposerait donc d’un moyen de répartir une grosse tâche sur plusieurs sous-agents, chacun avec sa propre fenêtre de contexte, mais laisse l’utilisateur ordinaire bricoler avec un seul exécutant qui finit par perdre et halluciner au bout du douzième fichier. Anthropic vous vend une Ferrari, mais vous livre une voiture de sport limitée à 80 km/h.
La fin de la hype ?
La sécurité de Claude, elle, ressort chiffonnée par l’épisode. Une deuxième fuite en un peu plus d’un an, pour un groupe qui se présente comme le laboratoire de l’IA pionnière de la cybersécurité fait forcément tâche. Les concurrents récupèrent ici une éducation gratuite en ingénierie d’orchestration agentique. Les clients, eux, découvrent un théâtre plus prosaïque. Derrière la promesse d’assistance, il y a des seuils, des coupures, des garde-fous réservés aux salariés et surtout une obsession de livrer le minimum viable. Une architecture qui pousse les utilisateurs à itérer toujours plus sans jamais obtenir de résultats convaincants. Autant vous dire qu’avec ces brides, c’est pas demain la veille que Claude vous aidera à créer le prochain SaaS disruptif.
Claude Code n’a donc pas été poussé à la paresse par accident. 500.000 lignes plus tard, l’affaire révèle des choix de design inavoués qui tuent purement et simplement la hype marketing des débuts. Une discipline de produit où l’on ménage l’outil, force l’itération facturable, en laissant l’utilisateur apprendre, à ses frais, qu’un « c’est fait » n’a rien à voir avec un travail bien fait.

