OpenAI AI Voices : Trois nouveaux modèles pour la transcription et les voix synthétiques

Trois nouvelles voix IA signées OpenAI sont là. Ça fait un moment qu’ils bossent dessus, et malgré quelques petits scandales, ils n’ont pas ralenti la cadence.

OpenAI a lancé gpt-4o-transcribe, gpt-4o-mini-transcribe et gpt-4o-mini-tts. Des noms qui ne font pas rêver, mais des technos qui promettent. Ces outils servent à la transcription et à la génération vocale via API, donc surtout pour les développeurs et leurs applis tierces. Les curieux peuvent aussi tester sur OpenAI.fm, un site démo où on peut jouer avec les voix sans coder une seule ligne.

La vraie nouveauté : il est possible de personnaliser ces voix selon ses envies. Un accent anglais bien posé ? Une intonation dramatique ? Une voix apaisante façon prof de yoga zen ? Tout ça se règle d’un simple prompt texte.

Jeff Harris, ingénieur chez OpenAI, a montré en live à VentureBeat comment une même voix pouvait passer du savant fou au coach méditatif rien qu’avec quelques instructions écrites. L’idée derrière tout ça : éviter que quelqu’un puisse dire que l’IA copie une voix existante… même si l’affaire Johansson a prouvé que le sujet reste sensible.

Plus précis que Whisper

Ces modèles reprennent la base du GPT-4o sorti en mai 2024 mais ont été entraînés spécifiquement pour exceller dans tout ce qui touche à la parole et sa transcription. Le but est clair : remplacer Whisper, le précédent modèle open source lancé par OpenAI il y a deux ans.

Les améliorations sont notables :

Moins d’erreurs dans les retranscriptions
Meilleure reconnaissance des accents
Fonctionne mieux dans le bruit ambiant

Un graphique publié par OpenAI montre que gpt-4o-transcribe descend jusqu’à un taux d’erreur de seulement 2,46% en anglais sur un large panel de tests industriels.

Harris précise aussi que ces modèles détectent mieux quand quelqu’un termine une phrase grâce à un « détecteur d’activité sémantique ». Dit autrement, il en sera fini des coupures hasardeuses ou les phrases tronquées lors des retranscriptions automatiques.

Mais petite limite quand même : ils ne savent pas différencier plusieurs intervenants dans une conversation (« diarization » absente). Si plusieurs personnes parlent en même temps ou se relaient rapidement… eh bien ce sera pris comme une seule grande phrase continue.

Si vous gérez un service client automatisé ou voulez juste éviter de prendre des notes en réunion, ces nouveaux outils ont clairement leur place. L’intégration est facile : neuf lignes de code suffisent pour ajouter ces fonctionnalités vocales aux applis basées sur GPT-4o classique.

Prix & accès immédiat

Pas besoin d’attendre pour essayer ces nouveaux outils :

gpt-4o-transcribe → $6 / million de tokens audio (~$0.006/minute)
gpt-4o-mini-transcribe → $3 / million (~$0.003/minute)
gpt-4o-mini-tts → $0.60 / million tokens texte & $12 / million tokens audio (~$0.015/minute)

Côté rapports qualité/prix face aux concurrents comme ElevenLabs ou Hume AI… disons que chacun a ses avantages selon l’usage recherché , certains préfèreront payer moins cher quitte à perdre légèrement en précision ou fonctionnalités spécifiques comme le multi-haut-parleur.

Et afin de rendre le lancement plus fun, OpenAI organise aussi un petit concours autour du site démo OpenAI.fm. Ceux qui partageront les créations vocales les plus originales sur X (@openai) pourraient gagner… une radio customisée Teenage Engineering. Pas sûr que ça change votre vie mais … il n’y en aurait que trois exemplaires au monde.

OpenAI AI Voices : Trois nouveaux modèles pour la transcription et les voix synthétiques

Plus précis que Whisper

Prix & accès immédiat

Derniers articles

Qu’est-ce qu’Ollama ? Tout savoir sur ce moteur d’IA locale

GTA 6 : comment Leonida repousse les lois de la géométrie vidéoludique sans recourir à l’intelligence artificielle

Claude Fable 5 vs GPT-5.6 Sol : le duel des deux LLM frontière décortiqué benchmark par benchmark

CyberGhost VPN casse son prix à 1,59 €/mois : 88 % de remise et 2 mois offerts

Tendance

iOS 27 bêta publique : date probable, iPhone compatibles et faut-il l’installer ?

GPT‑5.6 aurait “triché” pendant ses tests : faut-il encore croire aux benchmarks IA ?

iOS 27 en bêta publique : Siri dopé à l’IA arrive enfin sur iPhone

GTA 6 : le gameplay se rapproche et Rockstar a déjà semé des indices partout

Windows 11 démembre Phone Link : la synchronisation Android s’installe au cœur du système

Vous allez aussi aimer

L’intelligence artificielle a-t-elle volé les créateurs ? Le procès du copyright s’enflamme

ChatGPT : OpenAI présente le mode « incognito » pour améliorer la confidentialité des utilisateurs

Microsoft dévoile Autodev, un framework de développement entièrement autonome

Grok 4 : derrière les benchmarks prometteurs, la déception

Claude poussé à la paresse ? Le leak qui révèle comment Anthropic bride son service aux utilisateurs

iPhone 14 : Apple prévoirait une fonction SOS d’urgence par satellite

OpenAI met à jour son modèle API o1 et réduit les coûts pour l’audio en temps réel

Top 5 des meilleurs sites IA pour reformuler un texte / paraphraser

Infos légales

Maj récentes

Xiaomi 18 Pro : la fuite promet double capteur 200MP, batterie 7000mAh et puce Snapdragon en 2nm

Apple attaque OpenAI et io en justice pour vol de secrets industriels sur l’iPhone

OxygenOS c’est fini : Oppo efface OnePlus en fondant sa marque dans ColorOS

Galaxy Unpacked du 22 juillet 2026 à Londres : le Z Fold 8, un « Wide » inédit et la Watch 9 attendus

Qui sommes nous ?

Plus précis que Whisper

A lire également

Prix & accès immédiat

Derniers articles

Tendance

Vous allez aussi aimer