9 april 2025 · 7 min read

OpenAI lanceert GPT-4o-transcribe: een krachtig maar beperkt transcriptiemodel

In een ietwat bescheiden aankondiging heeft OpenAI twee nieuwe spraak-naar-tekstmodellen geïntroduceerd die hun voorganger Whisper V3 in meerdere talen overtreffen. De nieuwe modellen – gpt-4o-transcribe en gpt-4o-mini-transcribe – dragen bij aan OpenAI's portfolio van steeds betere audiomodellen, maar ze hebben belangrijke beperkingen waar potentiële gebruikers zeker rekening mee moeten houden.

De afbeelding die OpenAI deelde bij de release van hun nieuwe speech-to-text modellen.
De afbeelding die OpenAI deelde bij de release van hun nieuwe speech-to-text modellen.

De stille vooruitgang van OpenAI in audiotechnologie

Terwijl OpenAI regelmatig de krantenkoppen haalt met hun LLM-releases en updates voor hun videogenerator Sora, worden hun audio-ontwikkelingen vaak stiller aangekondigd (misschien omdat ze bang zijn dat er te veel publiciteit komt die zorgen zou kunnen oproepen over auteursrechtelijk beschermd materiaal dat voor trainingen wordt gebruikt. Ondanks dit bescheiden profiel heeft het bedrijf gestaag een indrukwekkend portfolio aan audiotechnologieën opgebouwd, met name op het gebied van tekst-naar-spraak (TTS), met opmerkelijk natuurlijk klinkende resultaten.

De nieuwste toevoeging aan dit groeiende audio-ecosysteem is hun nieuwe gpt-4o-merk closed-source transcription (STT) API, die een aanzienlijke verbetering vertegenwoordigt ten opzichte van hun vorige model Whisper V3, maar met veel minder publiciteit arriveert dan hun andere recente lanceringen, in een blogbericht op hun site.

De nieuwe aanbiedingen bestaan ​​uit twee gesloten-bron automatische spraak-naar-tekstmodellen:

  • gpt-4o-transcriberen: Het krachtigste en nauwkeurigste van de twee modellen
  • gpt-4o-mini-transcriberen: Een lichter alternatief dat prestaties in evenwicht brengt met efficiëntie

Deze modellen zijn beschikbaar via de API van OpenAI tegen een relatief betaalbare prijs, waardoor nauwkeurige transcriptie toegankelijker wordt voor ontwikkelaars.

Hoe verhoudt dit zich tot Whisper?

Whisper van OpenAI is breed geaccepteerd als open-source transcriptieoplossing, maar deze nieuwe modellen claimen superieure prestaties in de meeste talen. De verbeteringen variëren echter aanzienlijk per taal.

We zien dat de meeste verbeteringen worden doorgevoerd in voorheen zwakke talen. Zo laat spraakherkenning met de gpt-4o-familie van Malayalam aanzienlijk lagere woordfoutenpercentages (WER) zien in vergelijking met Whisper. Voor talen waar Whisper al goed presteerde, is er ook enige verbetering, maar de relatieve winst is bescheidener.

Overzicht van de prestaties van verschillende ASR-modellen.
Overzicht van de prestaties van verschillende ASR-modellen.

Deze ongelijkmatige verbetering suggereert dat OpenAI zich heeft gericht op het aanpakken van de zwakke punten van Whisper in plaats van uniforme verbeteringen voor alle talen door te voeren, en lijkt de "wet van de afnemende meeropbrengst" te bevestigen. De meeste taalmodellen lijken asymptotisch te verbeteren tot een punt waarop het bijna perfect is, maar niet volledig foutloos.

Zowel gpt-4o-transcribe als gpt-4o-mini-transcribe scoren beter dan Whisper op een heel aantal talen volgens de FLEURS benchmark.
Zowel gpt-4o-transcribe als gpt-4o-mini-transcribe scoren beter dan Whisper op een heel aantal talen volgens de FLEURS benchmark.

Concurrerend landschap

De transcriptiemarkt wordt steeds competitiever, met Google's Gemini API die vergelijkbare functionaliteit biedt, hoewel hun taalmodel native multimodaal is. Onafhankelijke benchmarks door Artificial Analysis bevestigen dat gpt-4o-transcribe goed scoort in vergelijking met marktleiders, met een gecombineerde tweede plaats naast Speechmatics en Assembly, en slechts één procentpunt achter Scribe.

Een van de meest aantrekkelijke aspecten van de nieuwe modellen is hun prijsstructuur: gpt-4o-mini-transcribe kost de helft van OpenAI's eigen Whisper endpoint. Alleen de gehoste versies van Whisper V3 van Groq en Fireworks zijn goedkoper. Deze concurrerende prijs maakt het een aantrekkelijke optie voor ontwikkelaars die al binnen het OpenAI-ecosysteem werken.

De nieuwe modellen zijn relatief aantrekkelijk geprijsd.
De nieuwe modellen zijn relatief aantrekkelijk geprijsd.

Beperkingen

Ondanks indrukwekkende prestatiegegevens zijn er een aantal belangrijke beperkingen die ervoor kunnen zorgen dat gpt-4o-transcribe niet de ideale oplossing wordt voor veel use cases:

  • Toegangsbeperkingen: Momenteel is het model alleen toegankelijk via code, zonder gebruiksvriendelijke interface om het uit te proberen.
  • Beperkingen voor bestandsgrootte:Het uploaden van bestanden naar de OpenAI audio-API is beperkt tot bestanden kleiner dan 25 MB. Dit betekent dat u langere audio- of videobestanden niet kunt transcriberen.
  • Ontbrekende functies:Er ontbreken essentiële functies zoals tijdstempels op woordniveau of sprekerherkenning (diarisatie)
  • Gesloten-bron karakterOmdat de nieuwe modellen – in tegenstelling tot Whisper – open source zijn, bieden ze geen aanpassingsopties voor specifieke domeinen of vocabulaires.
  • Privacyzorgen:OpenAI gebruikt mogelijk geüploade data om hun model te trainen, wat zorgen over de privacy oproept, vooral voor Europese gebruikers.
  • Whisper biedt meer aanpassingsmogelijkheden vanwege het open-sourcekarakter, maar de gehoste versie van OpenAI heeft ook last van dezelfde beperkte functionaliteit en lage maximale bestandsgrootte.

Is het geschikt voor mij?

Of gpt-4o-transcribe de juiste keuze is, hangt volledig af van uw specifieke vereisten:

  • Voor ontwikkelaars die binnen het OpenAI-ecosysteem bouwen: gpt-4o-mini-transcribe biedt een uitstekende prijs-kwaliteitverhouding en solide prestaties
  • Voor niet-technische gebruikers die op zoek zijn naar een uitgebreide oplossing: Volledige transcriptiesuites zoals Scribewave bieden een toegankelijkere en meer functierijke ervaring door verschillende van deze modellen te integreren in een gespecialiseerde editor.

Enkele voordelen van Scribewave zijn:

  • Volgens benchmarks een nog hogere nauwkeurigheid in 32 talen
  • Er is een gratis versie met een gebruiksvriendelijke interface beschikbaar voor testen
  • Het ondersteunt het uploaden van grote audio- en videobestanden van meerdere uren lang
  • Het herkent direct verschillende luidsprekers
  • Scribewave levert mooi opgemaakte resultaten met meerdere exportopties, zoals Word, Google Docs en verschillende ondertitelformaten

Conclusie

De nieuwe transcriptiemodellen van OpenAI leveren indrukwekkende prestaties op het gebied van transcriptienauwkeurigheid, met name in voorheen ondergewaardeerde talen. Hun bruikbaarheid wordt echter beperkt door praktische beperkingen, waardoor ze ongeschikt zijn voor veel toepassingen in de praktijk.

Ben je een ontwikkelaar die al met de tools van OpenAI werkt en behoefte hebt aan kosteneffectieve transcriptiemogelijkheden? Dan biedt gpt-4o-mini-transcribe een aantrekkelijke prijs. Ben je echter op zoek naar een complete, gebruiksvriendelijke transcriptieoplossing met functies zoals sprekerherkenning en flexibele exportmogelijkheden? Dan zijn alternatieven zoals Scribewave geschikter.

Naarmate de transcriptiesector zich verder ontwikkelt, kunnen we verdere verfijningen verwachten om deze beperkingen aan te pakken. Maar voorlopig moeten gebruikers hun specifieke behoeften zorgvuldig afstemmen op de mogelijkheden en beperkingen van elke beschikbare oplossing.

Over de auteur

Ulysse Maes

In een wereld waar Ulysse niet sterker kan zijn dan The Rock of charmanter dan Timothée Chalamet, triomfeert hij als het meesterbrein achter Scribewave. Hij verdedigt zo fier zijn troon als de koning van de nerds in "'t Stad", Antwerpen, België.

Gerelateerde artikelen

Ontdek meer artikelen over transcriptie, ondertiteling en vertaling