Beeld en Geluid: kennis distilleren uit bergen spraak

Arjan van Hessen werkt ij het Enschedese bedrijf Telecats en de Universiteit Twente aan het doorzoekbaar maken van grote hoeveelheden spraak voor zowel spreker- als spraakherkenning.
Arjan van Hessen is werkzaam bij het Enschedese bedrijf Telecats en de Universiteit Twente

Een callcenter voert tien- tot honderdduizenden telefoongesprekken per jaar. Hoe kun je met data-analyse kennis halen uit deze massa conversaties?

Het instituut Beeld en Geluid op het Mediapark in Hilversum maakt een miljoen uur aan audio- en video- (AV) materiaal toegankelijk: een aantal dat jaarlijks met 40.000 uur toeneemt. Maar hoe vind je het gewenste bestand? Daartoe bouwt Beeld en Geluid verschillende ingangen en verbindingen. Programmatitel, regisseur en uitzenddatum volstaan niet voor de vindbaarheid van een onderwerp.

Het AV-materiaal gaat door de spraakherkenner voor – niet-foutloze – transcripties, geschikt voor trefwoordlabels aan fragmenten. Sprekerherkenning helpt bij het achterhalen van presentatoren en gasten van wie de stemprofielen in de databank staan. Op termijn zullen ook niet-bekende Nederlanders herkend kunnen worden.

“We werken aan het audiovisuele web en hyperlinking”, vertelt Roeland Ordelman, Hoofd Onderzoek van Beeld en Geluid. “Daarbij worden tussen allerlei soorten data verbanden gelegd. Met het gecreëerde netwerk kun je op een intuïtieve manier door content navigeren.” Labels maken ook koppelingen met andere bestanden mogelijk, zoals tussen het radioarchief en de beeldbank van het Nationaal Archief. Radio krijgt daardoor een beeldscherm.

Het gaat om het toegankelijk maken van een ‘immense audiovisuele stroom’ die groeit naar 90 procent van het internetverkeer. Big data? Ordelman: “Ja, er is sprake van Volume, Velocity, Value, Veracity en Variety. Wij oogsten waarde uit de brei met spraak- en sprekerherkenning, visuele analyse en hogere tools.”

Samen met de universiteiten van Twente, Amsterdam en Delft test Beeld en Geluid nieuwe applicaties. Op labs.beeldengeluid.nl zijn datasets en api’s beschikbaar. Ordelman: “We verwachten de komende tien jaar een grote hoeveelheid programma’s voor analyse. Probleem is wel dat je veel computercapaciteit nodig hebt. We kijken met de Universiteit van Amsterdam naar een cloud-oplossing.”

 

Van L&H tot AIVD

Spraak is rijk maar ook ambigu: meestal grammaticaal incorrect, met aarzelingen, pauzes, onderbrekingen, halve zinnen. Logisch werkende analysetools volstaan niet. Met telefonieapplicaties is het dan ook een uitdaging om in een dialoog met de beller via diens keuzes te komen tot de gewenste informatie, aanvraag of bestelling. “De kloof tussen wat bedoeld en gezegd wordt, is voor de huidige computers dikwijls een stap te ver, maar we komen in de buurt”, vertelt Arjan van Hessen. In het verleden werkte hij bij het roemruchte Vlaamse Lernout & Hauspie, nu bij het Enschedese bedrijf Telecats en de Universiteit Twente aan het doorzoekbaar maken van grote hoeveelheden spraak voor zowel spreker- als spraakherkenning. Van Oral History, NIOD en Beeld en Geluid-projecten bijvoorbeeld. Opsporingsinstanties zoals politie en inlichtingendiensten (MIVD en AIVD) lopen graag voorop in het gebruik van wetenschappelijke resultaten.

Met sprekerherkenning bepalen inlichtingendiensten bijvoorbeeld of een boodschap daadwerkelijk van een ‘bekende’ terroristenleider afkomstig is. Voor callcenters is de bepaling van wat er hoe door wie wordt gezegd bijzonder interessant. Zeker omdat die kennis nu dikwijls ontbreekt. Van Hessen: “Grote organisaties proberen zo veel mogelijk gesprekken zo snel en zo goed mogelijk af te handelen. De kwaliteit is echter lastig meetbaar terwijl de snelheid juist wel goed te berekenen valt. Medewerkers classificeren te vaak gesprekken als ‘overig’, omdat ze dan niets meer hoeven in te vullen.”

Telecats heeft inmiddels grote analysetrajecten gedaan voor onder meer DUO van OCW, Belastingdienst, Aegon en Brabant Water. Tienduizenden gesprekken werden opgenomen en door de spraakherkenner gehaald om de inhoud ervan te bepalen. “Dit leverde zinvolle gegevens op over herhaalgesprekken – na belleridentificatie – juistheid van doorverbinden en vooral datums en tijdstippen en specifieke onderwerpen. Deze analyse van data, tijdstippen, wachttijd, gespreksduur en inhoud maakte procesoptimalisatie mogelijk.

Zo kan de menustructuur worden aangepast aan tijdstippen waarop onderwerpen al dan niet populair zijn, zodat het gemiddeld aantal keuzes zo klein mogelijk is en klanten sneller en beter worden geholpen. Van Hessen: “Analyse van callcenterdata levert ook een beter inzicht op in de verschillen tussen FAQ’s via web en telefoon. Die web-FAQ’s gaan over ‘wie zijn jullie en wat doen jullie’, terwijl de gesproken FAQ’s persoonlijker zijn: ‘wat kunnen jullie voor mij betekenen?’.

Van Hessen is positief over de rol van taal- en spraaktechnologie. Het kan zowel helpen om klanten sneller van dienst te zijn als om de gewenste managementinformatie automatisch te extraheren en op te slaan. Medewerkers houden zo meer tijd over om te doen waar vooral mensen goed in zijn.

 

Social signal processing

Nieuw is Social Signal Processing (SSP): het met computers en algoritmes bepalen van de emotionele staat van sprekers. Allerlei features in het spraaksignaal zoals plotselinge stijging van de amplitude, toenemende stiltes, door elkaar praten, veranderende toonhoogtes en natuurlijk woordkeuzes, kunnen emoties helpen blootleggen. Kun je dit berekenen, dan kun je ‘aan de knoppen draaien’ om het gesprek zo positief mogelijk te laten verlopen. Van Hessen: “Nu is het one-size-fits-all: iedere beller krijgt dezelfde dialoog aangeboden. Maar door de dialoog aan te passen aan de manier van spreken van de klant, kun je een betere klantervaring creëren en daarvan wordt iedereen blij.”

 

Robotica

SSP heeft ook meerwaarde voor ‘Social Robotica’: inzet van robots in het intermenselijke verkeer, zoals aan ziekenhuisbedden, voor alleenstaande senioren en bij recepties. Van Hessen: “Het is dan noodzakelijk dat de robot zijn houding aanpast aan die van de mens.”

Onmenselijk of onwenselijk? “Wellicht, maar in een wereld met onvoldoende geld en/of mensen wellicht een goede optie en in ieder geval beter dan mensen volledig aan hun lot overlaten. Zie de documentaire ‘Ik ben Alice’.” (http://www.npo.nl/artikelen/2doc-ik-ben-alice-op-NPO-2)

Privacy

Zeg ‘big data’ en vingers gaan omhoog voor privacy. Logisch, want vaak is het doel van analyse van grote bestanden om tot specifieke profilering en treffers te komen.

Zo zou je met gespreks- en sprekeranalyse ook lastige bellers kunnen identificeren. Berucht zijn ‘grapjassen’ die helpdesks teisteren en medewerkers van hun stuk brengen met verwensingen en seksuele toespelingen. Callcenters zouden hen in de voice response kunnen filteren. Een databank met lastposten bijhouden mag echter niet volgens de privacywet.

Maar welke Nederlanders staan met stemgeluid in de databanken van justitie en inlichtingendiensten, bedoeld om sprekers te herkennen? En hoe lang mag/moet je daarin blijven staan? Boeiend nieuw terrein.

Resultaten bij Brabant Water

Telecats analyseerde samen met MMP Business Intelligence 25.000 van de jaarlijkse 300.000 gesprekken van de helpdesk. Deze analyse leverde onder meer op:

  • Een wordcloud met meest voorkomende onderwerpen en exact inzicht in deelonderwerpen.
  • Goed inzicht in de kwaliteit van de medewerkers, met gevolgen voor waardering, beloning en inzet op terreinen waarop ze deskundig zijn.
  • Veel beter inzicht in de duur van gesprekken versus de effectiviteit van het gesprek, oftewel de efficiency van het callcenter.
  • Aanpassing van de website om de meest voorkomende onderwerpen online aan te passen.
  • Online aanbod om het bedrag van de voorschotnota aan te passen: scheelde 6.000 telefoontjes en tienduizenden euro’s.
  • Inzicht in verspilling omdat mensen verkeerd belden. Aanpassing leverde besparing op.
  • Duidelijker facturatie en correspondentie met klanten.

Gerelateerde berichten...

X