Betrouwbare AI begint met het gebruik van betrouwbare trainingsdata

Kunstmatige intelligentie (AI) is enorm in opkomst. Een groot aantal Nederlanders gebruikt al één of meerdere toepassingen voor werk. Maar de systemen bieden niet alleen eindeloze mogelijkheden en gemak; er zijn ook zorgen en risico’s. De oplossing voor veel van deze problemen is volgens experts het gebruik van private in plaats van publieke AI-modellen. Er zijn al bedrijven die hierop inspelen door speciale datasets aan te bieden voor het trainen van AI. Een voorbeeld hiervan is het Nederlandse Keesing Technologies.

Steeds meer mensen gebruiken AI-systemen zoals ChatGPT, Bard, GitHub Copilot en vergelijkbare modellen voor hun werk. In 2023 maakte volgens onderzoek al één op de drie werknemers gebruik van ChatGPT. Maar hoewel AI-systemen veel mogelijkheden bieden om processen efficiënter te maken en gemakkelijk content te creëren, brengen ze ook risico’s met zich mee.

Bedrijfsinformatie op straat

De informatie die AI-modellen genereren, kan feitelijke onjuistheden en andere fouten bevatten. Daarnaast zijn er zorgen over transparantie, plagiaat, en het lekken van vertrouwelijke gegevens. De WHO waarschuwt bijvoorbeeld dat het gebruik van AI in de medische wereld kan leiden tot medische missers en verkeerde diagnoses.

Een andere zorg is dat de informatie die aan systemen wordt gevoed, gebruikt wordt om het model verder te trainen. Dit leidt onder meer tot bezorgdheid over de privacy van patiënten. Maar ook in andere branches speelt dit probleem. Zo belandden gevoelige gegevens van Samsung op de servers van ChatGPT, waarna het concern medewerkers verbood nog langer met het AI-model te werken. Ook bij Apple, Amazon en diverse grote banken mogen werknemers niet langer werken met AI-systemen van derde partijen.

Rubbish in, rubbish out

De zorgen over AI zijn terecht, maar zouden geen reden moeten zijn om kunstmatige intelligentie links te laten liggen, vindt AI-expert Sebastiaan van der Lans van WordProof. Volgens Van der Lans is het belangrijk een onderscheid te maken in de manier waarop modellen worden getraind: “Publieke AI-modellen zoals ChatGPT en Bard gebruiken alle informatie die ze op internet kunnen verzamelen, inclusief foute, verouderde en onnauwkeurige informatie. Doordat de input niet goed is, is de output regelmatig onbetrouwbaar. Oftewel: rubbish in, rubbish out.”

Tegenover publieke AI-modellen staan private AI-modellen die worden getraind met eigen informatie of datasets, legt Van der Lans uit: “Doordat je als maker de controle hebt over de betrouwbaarheid en juistheid van de gegevens die je gebruikt, kun je de betrouwbaarheid van het hele AI-systeem makkelijker waarborgen. En als je het model volledig in eigen beheer hebt, voorkom je het risico dat er gevoelige informatie lekt.”

Veel organisaties hebben dan ook hun eigen AI-systemen ontwikkeld, of zijn daar inmiddels mee bezig. Deze systemen worden bijvoorbeeld gevoed met informatie van de eigen website, ‘schone’ datasets van derde partijen, of een combinatie daarvan. Het eerder genoemde Apple werkt bijvoorbeeld aan een generatief AI-model voor intern gebruik.

Behoefte aan schone datasets

Door de opkomst van private AI-modellen is er een groeiende behoefte aan betrouwbare data om dit soort modellen te trainen, ziet Van der Lans. Bedrijven zoals Thomson Reuters, Quandl en S&P Capital IQ spelen al in op deze vraag door financiële gegevens en analyses aan te bieden voor AI-modellen.

Ook het Nederlandse Keesing Technologies, een leidende speler op het gebied van identiteitsverificatie, biedt sinds kort data aan die speciaal bedoeld is om AI-modellen te trainen.

Betrouwbare data als hart van je AI-model

Productmanager Calum Bunney van Keesing vertelt hoe ze tot de ontwikkeling van deze service zijn gekomen: “Wat we horen van partijen die AI en Machine Learning modellen maken, is dat het veel moeite kost om dit soort referentiedata zelf te verzamelen en te verwerken.”

Vaak wijken afbeeldingen van documenten bovendien erg van elkaar af, omdat er bij het maken en bewaren ervan geen rekening wordt gehouden met meetbaarheid, aldus Bunney: “Denk aan verschillen in belichting, resolutie en de hoek waarvanuit foto’s genomen kunnen worden.”

Juist een betrouwbaar en accuraat referentiebeeld kan AI-modellen helpen om documenten in de echte wereld te herkennen en te verifiëren, legt Bunney uit: “Onze kracht is niet dat we van elk document een reeks foto’s in verschillende omstandigheden aanbieden, zodat AI er een soort gemiddelde in kan herkennen. In plaats daarvan leveren we van elk document zeer accurate, gedetailleerde en betrouwbare gegevens aan, die het hart vormen van je AI-model. Als je begint met de data van Keesing, begin je met je concept van waarheid en bouw je je zelflerende dataset eromheen.”

Keesing verkrijgt documenten direct van de verstrekkende autoriteiten. Vervolgens worden de documenten in hoge kwaliteit gefotografeerd en wordt positionele informatie verzameld. De dataset van Keesing bevat de belangrijkste beveiligingsfeatures, inclusief positionele coördinaten en foto’s in ultraviolet en infrarood licht. De dataset bestaat inmiddels uit zo’n 70.000 documentafbeeldingen, afkomstig van rijbewijzen, ID-kaarten en paspoorten. De dataset wordt beschikbaar gesteld via een API en is volledig geanonimiseerd. Hierdoor voldoet de dataset aan de relevante AVG- en GDPR-richtlijnen.

Gerelateerde berichten...