3min Gadgets

OpenAI introduceert nieuwe realtime spraakmodellen

OpenAI introduceert nieuwe realtime spraakmodellen

OpenAI  heeft drie nieuwe realtime audiomodellen aangekondigd die ontwikkelaars moeten helpen bij het bouwen van geavanceerde spraakgestuurde AI-toepassingen. De nieuwe modellen, GPT-Realtime-2, GPT-Realtime-Translate en GPT-Realtime-Whisper, zijn beschikbaar via de API van het bedrijf en richten zich op natuurlijkere gesprekken, livevertaling en snelle spraak-naar-tekstfunctionaliteit.

Realtime

Met de introductie zet OpenAI opnieuw een stap richting AI-systemen die vloeiender kunnen communiceren met mensen. Vooral GPT-Realtime-2 geldt als de belangrijkste vernieuwing. Dit model is ontwikkeld voor realtime spraakinteractie waarbij AI niet alleen vragen kan beantwoorden, maar ook actief taken uitvoert, hulpmiddelen aanroept en gesprekken op natuurlijke wijze voortzet.

Volgens OpenAI beschikt GPT-Realtime-2 over verschillende verbeteringen ten opzichte van eerdere versies. Zo kan het model korte tussenreacties geven, zoals ‘laat me dat even controleren’, terwijl het op de achtergrond een taak uitvoert. Ook kan het meerdere hulpmiddelen tegelijkertijd gebruiken zonder dat het gesprek stilvalt. Daarnaast moet het systeem beter omgaan met fouten of onderbrekingen, waardoor gesprekken natuurlijker blijven verlopen.

Uitbreiding contextvenster

Een andere belangrijke verbetering is de uitbreiding van het contextvenster van 32.000 naar 128.000 tokens. Daardoor kan de AI veel meer informatie onthouden binnen één gesprek. Dat moet vooral nuttig zijn in complexe toepassingen zoals klantenservice, medische ondersteuning of zakelijke assistenten waarbij langdurige gesprekken plaatsvinden.

OpenAI stelt bovendien dat het model beter overweg kan met specialistische termen, eigennamen en medische woordenschat. Ontwikkelaars kunnen daarnaast bepalen hoeveel ‘redeneerkracht’ de AI gebruikt, variërend van minimale verwerking tot een zeer uitgebreid analysemiveau.

De prestaties van het model zouden volgens benchmarks aanzienlijk verbeterd zijn. GPT-Realtime-2 behaalde op verschillende audiotests beduidend hogere scores dan de vorige generatie GPT-Realtime-1.5.

GPT-Realtime-Translate

Naast deze gespreks-AI introduceert OpenAI ook GPT-Realtime-Translate. Dat model is bedoeld voor live meertalige gesprekken en kan gesproken taal vanuit meer dan zeventig talen vertalen naar dertien doeltalen. Volgens het bedrijf blijft daarbij niet alleen de betekenis behouden, maar kan het systeem ook omgaan met regionale accenten, wisselende contexten en specialistische terminologie.

Het derde model, GPT-Realtime-Whisper, richt zich op realtime transcriptie van gesproken tekst. Het systeem zet spraak vrijwel direct om naar tekst terwijl iemand nog spreekt. Dat kan onder meer worden ingezet voor live ondertiteling, vergadernotities, colleges of interviews.

Beschikbaarheid

Alle modellen zijn inmiddels beschikbaar voor ontwikkelaars via de Realtime API. Voor gewone ChatGPT-gebruikers werkt OpenAI nog aan verdere verbeteringen van de stemfunctionaliteit binnen de consumentenversie van de chatbot.

De aankondiging laat zien hoe snel de ontwikkeling van spraakgestuurde AI zich momenteel voltrekt. Waar chatbots enkele jaren geleden vooral tekstgebaseerd waren, verschuift de aandacht nu steeds meer naar realtime gesprekken die nauwelijks nog van menselijke interactie te onderscheiden zijn.