27 février 2025 · 5 min read

ElevenLabs lance Scribe : le nouveau modèle de reconnaissance vocale automatique surpassant OpenAI Whisper V3 et Google Gemini

Dans un mouvement inattendu qui redéfinit le paysage de la reconnaissance automatique de la parole (ASR), ElevenLabs a présenté Scribe V1. Principalement connue pour sa technologie de synthèse vocale de pointe (TTS), ElevenLabs a désormais mis son ingéniosité au service de l'ASR, proposant un modèle à source fermée surpassant aussi bien des solutions open source comme OpenAI Whisper V3 que des alternatives privées telles que le modèle Gemini Flash de Google et le Nova-3 de Deepgram.

Aperçu des capacités du nouveau modèle Scribe d’Elevenlabs.
Aperçu des capacités du nouveau modèle Scribe d’Elevenlabs.

Chez Scribewave, nous recherchons et intégrons en permanence les meilleures technologies de transcription dans notre solution tout-en-un de conversion de la parole en texte (STT) respectueuse de la vie privée. Nous surveillons de près les dernières avancées des API de transcription afin de garantir à nos utilisateurs un accès aux solutions les plus performantes du marché à tout moment. Lorsque ElevenLabs a lancé Scribe ce matin, nous avons immédiatement reconnu son potentiel et l'avons intégré à notre plateforme le jour même, nous assurant ainsi de rester à la pointe de l'innovation technologique.

Cependant, l'intégration de Scribe n'a pas été sans défi. L'une des limitations notables est que, par défaut, la reconnaissance des locuteurs par ElevenLabs n'est efficace que pour les fichiers audio d'une durée maximale de 8 minutes. J'ai passé la nuit à résoudre cette contrainte avec beaucoup de café et de chocolat, afin que nos utilisateurs puissent profiter de transcriptions fluides et de haute qualité sans se soucier de la durée ou du format des fichiers. Grâce à ces améliorations, Scribewave prend désormais en charge tous les fichiers audio et vidéo jusqu'à 5 heures sans compromis sur la qualité de la transcription.

Avec cet article, j'ai le plaisir d'annoncer que nos clients entreprise peuvent dès à présent accéder en bêta à ce modèle révolutionnaire. De plus, nous avons déjà commencé à déployer Scribe pour tous nos utilisateurs.

Scribe impressionne : des performances de pointe sur les benchmarks et dans la pratique

Scribe V1 d'ElevenLabs ne se contente pas de créer le buzz—il est soutenu par des preuves solides. Le modèle a pris la première place dans des benchmarks indépendants, tels que ceux d'Artificial Analysis et de Mozilla Common Voice, confirmant ainsi son exactitude et sa fiabilité supérieures. Ces résultats correspondent à nos propres tests internes chez Scribewave, démontrant que Scribe surpasse la concurrence dans la plupart des cas.

ElevenLabs Scribe surpasse Deepgram et Assembly en termes de WER (Source : Artificial Analysis : https://artificialanalysis.ai/speech-to-text).
ElevenLabs Scribe surpasse Deepgram et Assembly en termes de WER (Source : Artificial Analysis : https://artificialanalysis.ai/speech-to-text).

Mais ce qui distingue vraiment Scribe, c'est son comportement dans des scénarios réels. Bien que j'aie testé de nombreux modèles de reconnaissance vocale, celui-ci m'a impressionné par son précision exceptionnelle. J'ai effectué des tests sur divers fichiers, et dans certains cas, la transcription était parfaitement précise—100 % d'exactitude en français, anglais, italien et néerlandais. Ce niveau de précision change la donne dans la manière dont nous utilisons et comprenons la parole. Au cours des prochains jours, je poursuivrai mes tests pour garantir que l'implémentation de Scribe chez Scribewave maintienne nos standards de qualité élevés.

D'autres utilisateurs précoces partagent cet enthousiasme. En ligne, Scribe semble avoir passé avec succès le redoutable "vibe check", prouvant sa pertinence dans des contextes réels. Un utilisateur de Twitter a même publié un résultat de transcription impeccable pour le plus grand orateur du monde, tandis que d'autres louent ses capacités multilingues.

Analyse : les avantages du modèle Scribe d'ElevenLabs

Scribe V1 offre de nombreux atouts :

  • Précision exceptionnelle : Il excelle dans l'interprétation des mots corrects et l'identification des locuteurs (diarisation), ce qui en fait un choix fiable pour la transcription de conversations et de réunions.
  • Changement de langue fluide : Il gère sans effort le passage d'une langue à l'autre dans un même fichier, idéal pour les environnements multilingues.
  • Support linguistique étendu : Avec la prise en charge de 99 langues, il est utilisable presque partout dans le monde.
  • Amélioration des langues peu servies : Des avancées notables ont été réalisées pour des langues comme le serbe, le cantonais et le malayalam.
  • Détection d'événements audio : Il reconnaît également des éléments sonores comme la musique et les rires, offrant une transcription plus riche et contextuelle.
  • Transcriptions ultra-rapides : Scribe peut transcrire une minute d'audio en quelques secondes, augmentant ainsi l'efficacité.
Performances de Scribe sur différentes langues comparées à celles de Gemini, Whisper et Deepgram sur le benchmark Common Voice.
Performances de Scribe sur différentes langues comparées à celles de Gemini, Whisper et Deepgram sur le benchmark Common Voice.

Limitations du modèle

Malgré ses nombreux avantages, certaines limites doivent être prises en compte :

  • Modèle à source fermée : Impossible de l'exécuter en local.
  • Sensibilité à la qualité audio : La précision diminue en présence de bruits ou de superpositions de voix.
  • Limitations de l'API : Pas de support pour les URLs de fichiers et diarisation limitée à 8 minutes. Scribewave, cependant, permet de transcrire jusqu'à 5 heures.
  • Protection des données : Par défaut, les données peuvent être utilisées pour l'entraînement, sauf si un contrat SLA est en place.

Conclusion

Scribe V1 repousse les limites de la transcription automatique. Son exactitude, son support linguistique étendu et ses fonctionnalités innovantes en font un outil incontournable pour les journalistes, chercheurs et podcasteurs.

Essayez-le sur le Playground d'ElevenLabs ou via Scribewave pour des fichiers longue durée et un support avancé.

À propos de l'auteur

Ulysse Maes

Dans un monde où Ulysse ne peut rivaliser ni avec la musculature de The Rock, ni avec le charme de Timothée Chalamet, il triomphe en tant que cerveau derrière Scribewave, défendant farouchement son trône de roi des nerds dans la magnifique ville d'Anvers, en Belgique.