Dankzij big data kunnen we straks meten hoeveel de wereld in één dag veranderde

Piek Vossen leert de computer om taal te interpreteren. Dat vereist soms een extreem grote hoeveelheid rekenkracht. Als winnaar van Enlighten Your Research 2013 kan de hoogleraar Computationele Lexicologie daarom nu beschikken over de big data-faciliteiten van SURFsara. Een interview.

Waarom is het interpreteren van taal zo complex?
“Als wij mensen met elkaar communiceren, lijkt het of dat allemaal vanzelf gaat. Wie echter goed naar onze taal kijkt, ziet hoe vaag en ambigu die vaak is. Daar kom je achter als je probeert om computers teksten te laten begrijpen. Zo kan ‘fietsen’ bijvoorbeeld een werkwoord en een zelfstandig naamwoord zijn, en heeft een woord als ‘band’ nog veel meer betekenissen. Voor de computer heeft een zin met een paar van die woorden al snel duizenden mogelijke betekenissen. Een compleet artikel levert miljarden mogelijkheden op.”

Hoe breng je die enorme hoeveelheid mogelijkheden terug tot de juiste interpretatie?
“In verschillende stappen berekent de computer de kans dat een woord een bepaalde betekenis heeft. Dat gebeurt onder meer door de woorden in de omgeving te analyseren. Die omgeving bepaalt immers vaak wat we precies met een woord willen zeggen. Als er al een connectie is tussen woord A en woord C, en tussen woord B en woord C, dan kan de computer bijvoorbeeld ook een connectie leggen tussen A en C. Dat is toe te passen op het niveau van directe woordassociatie, maar bijvoorbeeld ook als het gaat over een bijvoeglijk of zelfstandig naamwoord. Uiteraard kan deze vorm van machine learning op veel verschillende manieren een incorrect resultaat opleveren. Daarom moeten mensen de computer vertellen welke connecties juist of onjuist zijn. Daartoe nemen wij een training corpus, dus een verzameling teksten, handmatig door om de juiste interpretatie vast te stellen. Dat heet supervised learning, maar je kunt het ook als modern monnikenwerk typeren.”

Wat levert al die noeste arbeid op?
“In algemene zin brengen we met z’n allen steeds meer data voort. Ik zie het als een duidelijke verantwoordelijkheid van ons vakgebied om technologie te ontwikkelen die mensen in staat stelt eenvoudig en ongehinderd evenwichtige informatie te verzamelen. Op internet kom je al snel terecht in een jungle van onlogische redeneringen en emoties. Met de technologie waaraan wij werken, wordt het veel eenvoudiger alle informatie over een bepaald onderwerp overzichtelijk achter elkaar te zetten. Zo zijn feiten en meningen veel makkelijker te scheiden.”

Wat omvat het project NewsReader waar u momenteel aan werkt?
“We verzamelen een grote hoeveelheid zakelijke en financiële artikelen uit meer dan 35.000 bronnen. Vervolgens proberen we een aantal vragen te beantwoorden. Welke gebeurtenis wordt beschreven, wie zijn de participanten, hoe zijn zij aan elkaar gerelateerd, waar en wanneer heeft dit plaatsgevonden enzovoort? Zo kun je per dag een helder overzicht maken van wat er allemaal in de wereld is gebeurd. Minstens zo spannend vind ik het overzicht van welke bronnen dezelfde of juist conflicterende informatie verspreiden.”

Richten jullie je in eerste instantie op financieel-economisch nieuws?
“Inderdaad. De Europese Unie subsidieert dit project met 3 miljoen euro. Als voorwaarde wil die EU dat wij ons richten op gebruikers die kritische beslissingen moeten nemen en daartoe snel over veel hoogwaardige informatie moeten kunnen beschikken. Daarbij is het belangrijk dat deze doelgroep in de toekomst waarschijnlijk goed wil betalen voor deze diensten. Om dit te kunnen doen gebruiken we de enorme rekenkracht van de systemen van SURFsara. Als we kunnen meten wat eraan unieke informatie zit in dat enorme volume aan data, kunnen we vertellen hoeveel de wereld eigenlijk is veranderd in één dag. Zijn er echt bijzondere dingen gebeurd, of was het vooral een herhaling van zetten?”

Geef een antwoord

Gerelateerde berichten...

X