ChatGPT : une étude confirme son énorme baisse de performance

Sommaire

Mais qu’arrive t-il a ChatGPT ? L’IA d’OpenAI que tout le monde louait pour son efficacité serait-il victime d’un bug ? Lors de la sortie de GPT-4 en mars dernier, le chatbot avait scotché tout le monde par sa capacité de générer des textes presque indiscernables de ceux des humains. Aujourd’hui, malheureusement, ils semblent être de moins en moins compétents dans ses domaines d’expertise et souffre de plusieurs problèmes d’incohérence et de déclin général.

Inquiétudes et bizarreries autour de ChatGPT

Selon des chercheurs de Stanford et UC Berkeley, l’aptitude de ChatGPT à générer du code informatique s’est détériorée ces derniers mois. Et le plus inquiétant dans tout ça, c’est que personne n’a la moindre idée de pourquoi ce changement soudain se produit.

Dans une étude publiée récemment, les chercheurs déclarent que le comportement de ChatGPT s’est détérioré de manière significative. Alors qu’en mars 2023, GPT-4 identifiait les nombres premiers avec une précision de près de 98%, trois mois plus tard sa performance s’effondrait à moins de 3%. Quant à GPT-3.5, son habilité à générer du code s’est également détériorée entre mars et juin.

Les universitaires ne sont pas les seuls à constater cette dégradation de performance. Des utilisateurs du forum de développeurs d’OpenAI discutent également de ces problèmes, se demandant, non sans sarcasme, si le cher ChatGPT n’est pas en train de passer de « sous-chef assistant » à « plongeur de cuisine ».

Des optimisations qui contrarient les performances ?

La grande question est : pourquoi une telle baisse de performance ? Les chercheurs évoquent une possible conséquence des améliorations apportées par OpenAI, la société à l’origine de ChatGPT.

Matei Zaharia, l’un des co-auteurs de l’étude sur la qualité de ChatGPT, pense que le renforcement de l’apprentissage à partir des retours humains pourrait être « au pied du mur » et que la cause principale serait peut-être les bogues dans le système.

Ainsi, certaines optimisations visant à empêcher ChatGPT de répondre à des questions dangereuses pourraient avoir un effet pervers sur ses autres compétences. Le modèle aurait ainsi tendance à donner des réponses verbeuses et indirectes plutôt que des explications claires et concises.

Une autre hypothèse, non moins plausible, serait qu’OpenAI tenterait de faire des économies en utilisant des modèles moins gourmands en ressources et par conséquent moins performants.

« GPT-4 se dégrade au fil du temps, pas l’inverse », s’exclame l’expert en IA Santiago Valderrama sur Twitter. Il avance qu’un mélange d’autres modèles, « moins coûteux et plus rapides », pourrait avoir remplacé l’architecture d’origine de ChatGPT.

La communauté à la rescousse pour éviter le naufrage ?

Alors, comment enrayer cette baisse de performance ? Certains plaident pour des modèles open-source, qui permettraient aux passionnés et experts d’apporter leur pierre à l’édifice et de redonner à ChatGPT sa superbe.

Il s’agit également d’instaurer un suivi rigoureux des performances du modèle, pour repérer et corriger rapidement les régressions. Ainsi, la catastrophe pourra être évitée, et ChatGPT pourra de nouveau briller.

Mais ce scénario à très peu de chance d’aboutir, alors que Microsoft, un des actionnaires principaux d’OpenAI, plaide pour une politique de plus en plus fermée, privilégiant les modèles propriétaires et les licences restreintes.

En tout cas une chose est sûre, si ChatGPT souhaite rester sur le devant de la scène, il va devoir redoubler d’efforts pour maintenir un niveau de performance à la hauteur des attentes. D’autant plus que Google Bard et Claude d’Anthropic sont aux aguets pour lui voler la vedette.