
28 januari 2026 · 5 min read
Als doctoraatsonderzoeker moet ik regelmatig interviews en vergaderingen verwerken. Ik merkte al snel dat populaire, standaard transcriptiesoftware – zoals de ingebouwde transcriptiefunctie van Microsoft Word – teleurstellende resultaten leveren. Hierdoor ben ik veel beginnen nadenken over spraak-naar-teksttechnologie. In dit blogbericht deel ik graag een aantal belangrijke inzichten die ik heb opgedaan bij het kiezen van het juiste model, en waarom ik uiteindelijk besloten heb een benchmark- en transcriptietool te ontwikkelen die deze complexiteit afhandelt, zodat jij dat niet moet doen.

Bij het vergelijken van STT-modellen zijn er veel dingen om over na te denken. Deze elementen maken naar mijn ervaring echt een verschil:
Het STT-landschap is behoorlijk divers. Aan de commerciële kant heb je gevestigde spelers zoals Speechmatics, Deepgram, Sonix, Gladia en Assembly, plus de grote techbedrijven - Google en Microsoft - met hun cloud-geïntegreerde oplossingen. ElevenLabs Scribe is een andere, recentere, degelijke optie. Deze grote commerciële modellen bieden doorgaans een hoge nauwkeurigheid, veel functies en de infrastructuur om te schalen.
Op het gebied van open-source is Whisper waarschijnlijk de bekendste. Het Franse AI-bedrijf Mistral heeft ook een uitstekend open-source model genaamd Voxtral. Het grote voordeel hiervan is dat je deze op je eigen hardware kunt draaien, wat zowel privacyvriendelijk is als de doorlopende API-kosten elimineert.
Het probleem waar ik steeds tegenaan liep, was dit: het bijhouden van al die modellen is uitputtend. Er komen elke week nieuwe uit. Elk model heeft zijn eigen sterke en zwakke punten. Het testen van al die modellen met jouw specifieke audio-omstandigheden – achtergrondgeluid, accenten, audiokwaliteit – kost een eeuwigheid. En eerlijk gezegd willen de meeste mensen gewoon dat hun audio nauwkeurig wordt getranscribeerd. Ze willen geen experts in spraak-naar-tekstverwerking worden.
Daarom heb ik Scribewave ontwikkeld. Het idee is om al die complexiteit weg te nemen en je gewoon de meest accurate transcriptie te garanderen.
We vergelijken continu twaalf verschillende modellen met elkaar, inclusief onze eigen en diverse commerciële opties. Wanneer er nieuwe modellen verschijnen (wat in de huidige AI-race heel vaak gebeurt), testen we ze en werken we onze benchmarks automatisch bij.
Wanneer je een bestand uploadt naar Scribewave, kun je eenvoudig je specifieke wensen aangeven.Heeft u een aangepaste woordenschat nodig? Is het meertalig? Wilt u letterlijke of leesbare tekst? Op basis van uw instellingen en de kenmerken van uw audio – zoals achtergrondgeluid of dialect – kiezen we automatisch het beste model voor dat specifieke bestand. U hoeft zich geen zorgen te maken of Elevenlabs, Speechmatics of Deepgram beter werkt. We hebben ze allemaal al getest en weten welke de beste resultaten oplevert.
Maar Scribewave gaat niet alleen over het kiezen van het juiste model. Ik heb een complete workflowtool gebouwd:
Mensen vragen me wel eens waarom ik een transcriptieservice ontwikkel terwijl al die grote bedrijven al actief zijn op dit gebied. Mijn antwoord is dat een goede transcriptie zo afhankelijk is van de specifieke audio-omstandigheden en voorkeuren, dat het erg moeilijk is om met hetzelfde model elke keer het beste resultaat te behalen. Bovendien wil je meestal iets met de transcriptie doen – bewerken, vertalen, analyseren – om maar een paar voorbeelden te noemen.
Met Scribewave draait het hierom: je hoeft je geen zorgen te maken over modelselectie, instellingen of de nieuwste ontwikkelingen op het gebied van spraak- en teksttranscriptie. Upload je bestand en Scribewave doet de rest. Je krijgt zo snel mogelijk een nauwkeurig transcript en kunt je concentreren op het daadwerkelijke gebruik ervan in plaats van te worstelen met de technologie.
Over de auteur
In een wereld waar Ulysse niet sterker kan zijn dan The Rock of charmanter dan Timothée Chalamet, triomfeert hij als het meesterbrein achter Scribewave. Hij verdedigt zo fier zijn troon als de koning van de nerds in "'t Stad", Antwerpen, België.
Ontdek meer artikelen over transcriptie, ondertiteling en vertaling