Voor een Nederlandse multinational lijkt het een logische keuze: één AI-systeem voor alle landen, toegankelijk in meerdere talen. Efficiënt, kostenbesparend en bovenal consistent. Maar recente onderzoeken van het Centrum Wiskunde & Informatica (CWI) tonen een onverwacht risico: AI-systemen kunnen radicaal verschillende antwoorden geven afhankelijk van de taal waarin ze worden aangesproken.
Het probleem gaat verder dan kleine nuanceverschillen. Onderzoeker Davide Ceolin, Ceolin, verbonden aan de Human-Centered Data Analytics groep van het CWI, en zijn internationale collega’s ontdekten dat hetzelfde large language model verschillende politieke tendensen kan vertonen afhankelijk van de gebruikte taal; bijvoorbeeld meer economisch linkse antwoorden in het Nederlands en meer centrum-rechtse in het Engels. Voor bedrijven die AI inzetten voor HR, klantenservice of strategische besluitvorming heeft dit directe gevolgen voor bedrijfsvoering en reputatie.

“We verwachtten dat antwoorden onafhankelijk zouden zijn van de gebruikte taal, omdat ze immers van hetzelfde systeem komen,” legt Ceolin uit. “Dit is niet altijd het geval.” Voor Nederlandse ICT-managers rijst de vraag: hoe groot is de kans dat hun organisatie dit probleem al onbewust tegenkomt?
Dramatische verschuivingen per taal
Het onderzoek, waarbij vijftien verschillende AI-modellen werden getest via de Political Compass Test, toont dramatische verschillen. GPT-4o bijvoorbeeld scoorde economisch links (-2,99) bij Engelse prompts, maar rechts (+1,25) bij Chinese prompts. Mistral 7B varieerde van extreem links (-4,45) bij Nederlandse nationaliteit tot centrum-rechts (-0,8) bij Franse prompts.
Deze verschillen zijn niet toevallig. Statistische analyse toont aan dat de taal van de prompt een veel grotere impact heeft op AI-antwoorden dan andere factoren zoals toegewezen nationaliteit. “De politieke houding van het systeem verandert wanneer gebruikers verschillende talen hanteren,” constateert het onderzoek.
Voor bedrijven betekent dit meer dan een academische curiositeit. Ceolin waarschuwt: “Wanneer een systeem anders reageert op gebruikers met verschillende talen of culturele achtergronden, kan dit positief zijn – denk aan personalisatie – maar ook negatief, zoals stereotypering. Wanneer systeemeigenaren zich niet bewust zijn van deze vooroordelen, kunnen ze negatieve gevolgen ondervinden.”
Alle sectoren kwetsbaar
Het probleem beperkt zich niet tot politieke onderwerpen. Ceolin ziet risico’s in alle bedrijfsfuncties waar AI wordt ingezet: HR, klantenservice, compliance en strategische besluitvorming. “De vooringenomenheid van het AI-systeem kan de prestaties op een onverwachte maar systematische manier beïnvloeden, bijvoorbeeld bij discriminatie tegen specifieke groepen mensen.”
Reden voor extra zorg is dat deze problemen systematische patronen volgen. ‘De vooringenomenheid beïnvloedt prestaties op een onverwachte maar systematische manier,’ benadrukt Ceolin. Een HR-chatbot die sollicitanten anders beoordeelt op basis van de taal van hun cv, of een klantenservice-AI die inconsistente adviezen geeft aan Nederlandse versus Engelstalige klanten – zulke scenario’s zijn geen science fiction meer.
Verborgen risico voor multinationals
Voor Nederlandse multinationals is dit probleem bijzonder relevant. Ons land telt immers talloze bedrijven met internationale activiteiten die AI-tools inzetten voor efficiëntere bedrijfsvoering. “Ik denk dat ze dit probleem al ten minste gedeeltelijk tegenkomen, maar ik heb geen inzicht in hoe bewust ze zich ervan zijn,” stelt Ceolin.
Het onderzoek wijst uit dat kleinere AI-modellen vaak consistentere antwoorden geven dan hun grote tegenhangers. Grotere modellen lijken beter in staat instructies te volgen, maar juist daardoor gevoeliger voor culturele en linguïstische variaties in prompts.
Praktische detectie en mitigatie
ICT-managers kunnen vandaag al stappen ondernemen om dit risico te beheersen. Ceolin adviseert het uitvoeren van audits via persona-based prompting: “Het testen of bepaalde gebruikers- of interactiekenmerken – zoals de nationaliteit van de gebruiker of hun taal – onverwacht gedrag kunnen veroorzaken, is belangrijk.”
Daarnaast is het cruciaal om te begrijpen welke gebruikers met het systeem interacteren. “Het is van belang de diversiteit te begrijpen van de mensen die met deze systemen interacteren,” benadrukt Ceolin. Organisaties moeten systematisch testen of hun AI-tools consistent reageren op vergelijkbare vragen in verschillende talen.
Daarnaast oppert hij het ontwikkelen van governance-structuren die bias kunnen beheersen door te begrijpen hoe specifieke input-categorieën ongewenst gedrag triggeren.
Structureel probleem vereist actie
Het probleem van meertalige AI-bias is geen tijdelijke kinderziekte die vanzelf verdwijnt. Vergelijk het met de vroege dagen van internet security – wat aanvankelijk werd afgedaan als een technisch detail, bleek later cruciaal voor bedrijfsvoering. Ceolin en zijn collega’s werken samen met Franse onderzoekers van INRIA aan dit vraagstuk, wat de internationale urgentie onderstreept.
Voor organisaties betekent dit een uitbreiding van hun AI-governance. Waar ICT-managers voorheen focusten op technische prestaties en security, wordt linguïstische consistentie nu een nieuwe compliance-eis. Het is zaak om AI-systemen te testen op taalgerelateerde vooroordelen voordat inconsistenties leiden tot reputatieschade of juridische problemen.
Steeds meer internationale bedrijven ontdekken dat hun ene AI-systeem eigenlijk meerdere ‘persoonlijkheden’ heeft – afhankelijk van de taal waarin het wordt aangesproken. Daarnaast groeit het bewustzijn dat wat technisch efficiënt lijkt, operationeel risicovol kan zijn.
“AI wordt veel gebruikt en het bewustzijn van de beperkingen groeit, maar de soorten vooroordelen die het kunnen beïnvloeden zijn talrijk,” concludeert Ceolin. “Dus ik vermoed dat er nog relevant werk te doen is.”