
9 april 2025 · 7 min read
In een ietwat bescheiden aankondiging heeft OpenAI twee nieuwe spraak-naar-tekstmodellen geïntroduceerd die hun voorganger Whisper V3 in meerdere talen overtreffen. De nieuwe modellen – gpt-4o-transcribe en gpt-4o-mini-transcribe – dragen bij aan OpenAI's portfolio van steeds betere audiomodellen, maar ze hebben belangrijke beperkingen waar potentiële gebruikers zeker rekening mee moeten houden.
Terwijl OpenAI regelmatig de krantenkoppen haalt met hun LLM-releases en updates voor hun videogenerator Sora, worden hun audio-ontwikkelingen vaak stiller aangekondigd (misschien omdat ze bang zijn dat er te veel publiciteit komt die zorgen zou kunnen oproepen over auteursrechtelijk beschermd materiaal dat voor trainingen wordt gebruikt. Ondanks dit bescheiden profiel heeft het bedrijf gestaag een indrukwekkend portfolio aan audiotechnologieën opgebouwd, met name op het gebied van tekst-naar-spraak (TTS), met opmerkelijk natuurlijk klinkende resultaten.
De nieuwste toevoeging aan dit groeiende audio-ecosysteem is hun nieuwe gpt-4o-merk closed-source transcription (STT) API, die een aanzienlijke verbetering vertegenwoordigt ten opzichte van hun vorige model Whisper V3, maar met veel minder publiciteit arriveert dan hun andere recente lanceringen, in een blogbericht op hun site.
De nieuwe aanbiedingen bestaan uit twee gesloten-bron automatische spraak-naar-tekstmodellen:
Deze modellen zijn beschikbaar via de API van OpenAI tegen een relatief betaalbare prijs, waardoor nauwkeurige transcriptie toegankelijker wordt voor ontwikkelaars.
Whisper van OpenAI is breed geaccepteerd als open-source transcriptieoplossing, maar deze nieuwe modellen claimen superieure prestaties in de meeste talen. De verbeteringen variëren echter aanzienlijk per taal.
We zien dat de meeste verbeteringen worden doorgevoerd in voorheen zwakke talen. Zo laat spraakherkenning met de gpt-4o-familie van Malayalam aanzienlijk lagere woordfoutenpercentages (WER) zien in vergelijking met Whisper. Voor talen waar Whisper al goed presteerde, is er ook enige verbetering, maar de relatieve winst is bescheidener.
Deze ongelijkmatige verbetering suggereert dat OpenAI zich heeft gericht op het aanpakken van de zwakke punten van Whisper in plaats van uniforme verbeteringen voor alle talen door te voeren, en lijkt de "wet van de afnemende meeropbrengst" te bevestigen. De meeste taalmodellen lijken asymptotisch te verbeteren tot een punt waarop het bijna perfect is, maar niet volledig foutloos.
De transcriptiemarkt wordt steeds competitiever, met Google's Gemini API die vergelijkbare functionaliteit biedt, hoewel hun taalmodel native multimodaal is. Onafhankelijke benchmarks door Artificial Analysis bevestigen dat gpt-4o-transcribe goed scoort in vergelijking met marktleiders, met een gecombineerde tweede plaats naast Speechmatics en Assembly, en slechts één procentpunt achter Scribe.
Een van de meest aantrekkelijke aspecten van de nieuwe modellen is hun prijsstructuur: gpt-4o-mini-transcribe kost de helft van OpenAI's eigen Whisper endpoint. Alleen de gehoste versies van Whisper V3 van Groq en Fireworks zijn goedkoper. Deze concurrerende prijs maakt het een aantrekkelijke optie voor ontwikkelaars die al binnen het OpenAI-ecosysteem werken.
Ondanks indrukwekkende prestatiegegevens zijn er een aantal belangrijke beperkingen die ervoor kunnen zorgen dat gpt-4o-transcribe niet de ideale oplossing wordt voor veel use cases:
Of gpt-4o-transcribe de juiste keuze is, hangt volledig af van uw specifieke vereisten:
Enkele voordelen van Scribewave zijn:
De nieuwe transcriptiemodellen van OpenAI leveren indrukwekkende prestaties op het gebied van transcriptienauwkeurigheid, met name in voorheen ondergewaardeerde talen. Hun bruikbaarheid wordt echter beperkt door praktische beperkingen, waardoor ze ongeschikt zijn voor veel toepassingen in de praktijk.
Ben je een ontwikkelaar die al met de tools van OpenAI werkt en behoefte hebt aan kosteneffectieve transcriptiemogelijkheden? Dan biedt gpt-4o-mini-transcribe een aantrekkelijke prijs. Ben je echter op zoek naar een complete, gebruiksvriendelijke transcriptieoplossing met functies zoals sprekerherkenning en flexibele exportmogelijkheden? Dan zijn alternatieven zoals Scribewave geschikter.
Naarmate de transcriptiesector zich verder ontwikkelt, kunnen we verdere verfijningen verwachten om deze beperkingen aan te pakken. Maar voorlopig moeten gebruikers hun specifieke behoeften zorgvuldig afstemmen op de mogelijkheden en beperkingen van elke beschikbare oplossing.
Over de auteur
In een wereld waar Ulysse niet sterker kan zijn dan The Rock of charmanter dan Timothée Chalamet, triomfeert hij als het meesterbrein achter Scribewave. Hij verdedigt zo fier zijn troon als de koning van de nerds in "'t Stad", Antwerpen, België.
Ontdek meer artikelen over transcriptie, ondertiteling en vertaling