JDWJDW
Font ResizerAa
  • Web & Internet
  • Tech & Innovations
  • Mobiles & Apps
  • Consoles & Jeux Vidéo
  • Films & Séries
  • Animes & Mangas
  • Blockchain & Crypto
  • Plus
    • Informatique & Cybersécurité
    • Geek & Gadgets
    • Réseaux Sociaux & Influence
    • e-Business & Webmarketing
    • Fintech & Néobanques
    • Streaming & P2P
Font ResizerAa
JDWJDW
Rechercher
  • Web & Internet
  • Tech & Innovations
  • Mobiles & Apps
  • Consoles & Jeux Vidéo
  • Films & Séries
  • Animes & Mangas
  • Blockchain & Crypto
  • Geek & Gadgets
  • Informatique & Cybersécurité
  • Streaming & P2P
Have an existing account? Sign In
Suivez-nous
Tech & Innovations

OpenAI AI Voices : Trois nouveaux modèles pour la transcription et les voix synthétiques

Last updated: 23 mars 2025 11h15
Darell Mertens
Published 23 mars 2025
Partager
openai audio model

Trois nouvelles voix IA signées OpenAI sont là. Ça fait un moment qu’ils bossent dessus, et malgré quelques petits scandales, ils n’ont pas ralenti la cadence.

OpenAI a lancé gpt-4o-transcribe, gpt-4o-mini-transcribe et gpt-4o-mini-tts. Des noms qui ne font pas rêver, mais des technos qui promettent. Ces outils servent à la transcription et à la génération vocale via API, donc surtout pour les développeurs et leurs applis tierces. Les curieux peuvent aussi tester sur OpenAI.fm, un site démo où on peut jouer avec les voix sans coder une seule ligne.

La vraie nouveauté : il est possible de personnaliser ces voix selon ses envies. Un accent anglais bien posé ? Une intonation dramatique ? Une voix apaisante façon prof de yoga zen ? Tout ça se règle d’un simple prompt texte.

Jeff Harris, ingénieur chez OpenAI, a montré en live à VentureBeat comment une même voix pouvait passer du savant fou au coach méditatif rien qu’avec quelques instructions écrites. L’idée derrière tout ça : éviter que quelqu’un puisse dire que l’IA copie une voix existante… même si l’affaire Johansson a prouvé que le sujet reste sensible.

Plus précis que Whisper

Ces modèles reprennent la base du GPT-4o sorti en mai 2024 mais ont été entraînés spécifiquement pour exceller dans tout ce qui touche à la parole et sa transcription. Le but est clair : remplacer Whisper, le précédent modèle open source lancé par OpenAI il y a deux ans.

A lire également

OnlyFans
OnlyFans : derrière les promesses d’argent facile, la désillusion pour 95% des créateurs
GTA 6
GTA 6 : 7,6 milliards de recettes, la promesse d’un lancement qui va pulvériser tous les records
Intelligence artificielle : Les 40 métiers les plus menacés d’après une étude choc de Microsoft

Les améliorations sont notables :

  • Moins d’erreurs dans les retranscriptions
  • Meilleure reconnaissance des accents
  • Fonctionne mieux dans le bruit ambiant

Un graphique publié par OpenAI montre que gpt-4o-transcribe descend jusqu’à un taux d’erreur de seulement 2,46% en anglais sur un large panel de tests industriels.

Harris précise aussi que ces modèles détectent mieux quand quelqu’un termine une phrase grâce à un « détecteur d’activité sémantique ». Dit autrement, il en sera fini des coupures hasardeuses ou les phrases tronquées lors des retranscriptions automatiques.

Mais petite limite quand même : ils ne savent pas différencier plusieurs intervenants dans une conversation (« diarization » absente). Si plusieurs personnes parlent en même temps ou se relaient rapidement… eh bien ce sera pris comme une seule grande phrase continue.

Si vous gérez un service client automatisé ou voulez juste éviter de prendre des notes en réunion, ces nouveaux outils ont clairement leur place. L’intégration est facile : neuf lignes de code suffisent pour ajouter ces fonctionnalités vocales aux applis basées sur GPT-4o classique.

Prix & accès immédiat

Pas besoin d’attendre pour essayer ces nouveaux outils :

  • gpt-4o-transcribe → $6 / million de tokens audio (~$0.006/minute)
  • gpt-4o-mini-transcribe → $3 / million (~$0.003/minute)
  • gpt-4o-mini-tts → $0.60 / million tokens texte & $12 / million tokens audio (~$0.015/minute)

Côté rapports qualité/prix face aux concurrents comme ElevenLabs ou Hume AI… disons que chacun a ses avantages selon l’usage recherché , certains préfèreront payer moins cher quitte à perdre légèrement en précision ou fonctionnalités spécifiques comme le multi-haut-parleur.

Et afin de rendre le lancement plus fun, OpenAI organise aussi un petit concours autour du site démo OpenAI.fm. Ceux qui partageront les créations vocales les plus originales sur X (@openai) pourraient gagner… une radio customisée Teenage Engineering. Pas sûr que ça change votre vie mais … il n’y en aurait que trois exemplaires au monde.

Sources :OpenAI
Partager cet article
Facebook Whatsapp Whatsapp LinkedIn Reddit Telegram Copy Link

Derniers articles

tesla-optimus gen 2
Robotique : d’après Musk, le robot Tesla Optimus remplacera les médecins d’ici 3 ans
Tech & Innovations
Apple mackbook 2026 and futuristic abstract background
MacBook 2026 : Apple prépare une offensive tous azimuts sur le marché des portables
Informatique & Cybersécurité Tech & Innovations
atlas boston dynamics
Le robot Atlas de Boston Dynamics bientôt prêt à remplacer l’humain ?
Tech & Innovations
Phantom MK1
Phantom MK1 le robot humanoïde qui veut faire la guerre et marcher sur Mars
Tech & Innovations

Tendance

unitree kick operator
Unitree G1 : le robot chinois met un coup de pied à son opérateur d’entrainement et fait rire Elon Musk
Tech & Innovations
waizz ia analyse solana
Solana : la prédiction 2026 de l’IA Copilote d’investissement de WAIZZ
Blockchain & Crypto
iphone 18 concept
Autonomie et IA : comment l’iPhone 18 compte allier puissance brute et sobriété énergétique
Mobiles & Apps
avatar fire and ash
Avatar 3 : De feu et de cendre explose le box-office et confirme la suprématie de James Cameron
Films & Séries
Galaxy-S26-and-S26-Ultra
Galaxy S26 Ultra et S26 : les premières images fuitées confirment le retour de l’îlot photo
Mobiles & Apps

Vous allez aussi aimer

Bing Image Creator
Tech & Innovations

Microsoft Edge intègre désormais l’IA DALL-E pour générer des images

10 avril 2023
Grok 3
Tech & Innovations

Grok 3 est arrivé ! L’IA de xAI rivalise, voire dépasse, les meilleurs modèles d’OpenAI et Google

18 février 2025
GPT-5 OpenAI
Tech & Innovations

OpenAI : le projet GPT-5 (Orion) patine sérieusement. Vers une sortie au delà de 2025 ?

22 décembre 2024
Openai o1
Tech & Innovations

Openai lance o1, son nouveau modèle d’IA « capable de raisonner »

13 septembre 2024
Apple Vision Pro
Tech & Innovations

Apple annonce l’Apple Vision Pro ! Une révolution dans le monde de la réalité augmentée

6 juin 2023
OpenAI
Tech & Innovations

ChatGPT : OpenAI présente le mode « incognito » pour améliorer la confidentialité des utilisateurs

30 avril 2023
iphone 15 concept
Tech & Innovations

iPhone 15 : l’autonomie améliorée grâce un nouveau driver chip pour l’écran OLED

21 juillet 2023
Undetectable AI
Tech & Innovations

Avis sur Undetectable.ai : un « humanizer » fiable ou simple arnaque ?

1 sur 5Très mauvais

Infos légales

  • Mentions légales
  • Politique de confidentialité
  • Nous contacter
  • Partenaires

Maj récentes

Seedbox
Top 5 des meilleurs fournisseurs Seedbox 2026
Streaming & P2P Web & Internet
netflix janvier 2026
Nouveautés Netflix janvier 2026 : entre thrillers, romance et escalade vertigineuse… préparez vos soirées
Films & Séries Streaming & P2P
kodi 21.3
Kodi 21.3 « Omega » muscle son lecteur multimédia et bichonne Linux et Xbox
Streaming & P2P
harmony OS
HarmonyOS propulse un nouveau hub domestique qui veut tout connecter
Mobiles & Apps

Qui sommes nous ?

Le Journal du Web alias JDW a été fondé et est édité par des passionnés par l’univers web, nouvelles technologies et de la culture populaire.

Newsletter
Inscrivez-vous à notre newsletter pour recevoir nos derniers articles!
Suivez-nous
adbanner
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?