Veel data binnen organisaties zit in relationele databases of spreadsheets. Gestructureerd en doorzoekbaar, maar als het gaat om de inzichten die eruit gehaald kunnen worden, benutten we de mogelijkheden nog nauwelijks. “We weten niet wat we niet weten”, stelt Madelon Hulsebos, onderzoeker bij het CWI.
Madelon Hulsebos begon haar loopbaan als data scientist en merkte dat hoogbetaalde specialisten steeds dezelfde handmatige taken uitvoerden: tabellen opschonen, features extracten, datasets aan elkaar koppelen. Tijdens haar PhD aan de UvA en postdoc bij UC Berkeley ontwikkelde ze ‘table representation learning’, waarmee AI kan begrijpen wat tabellen betekenen in plaats van alleen te zoeken. Ze leidt nu het Table Representation Learning Lab aan het CWI met drie PhD’s, twee postdocs en zes masterstudenten aan dit onderwerp.
“Als datascientist merkte ik hoe ontzettend lastig en frustrerend het is om relevante datasets te vinden, bijvoorbeeld om machine learning modellen te trainen”, vertelt Hulsebos. Veel data is wel aanwezig, maar staat verspreid of zit diep weggestopt in omvangrijke, complexe tabellen. Met behulp van onder meer de NWO AiNed Fellowship-beurs zette ze het CWI-lab op met als doel de democratisering van inzichten uit gestructureerde data. “Het doel is eigenlijk om op basis van vraagstukken die mensen hebben – business users, analisten – automatisch de relevante data te kunnen opzoeken over verschillende systemen heen, en daar dan antwoorden op kunnen geven.”
Van information naar insight retrieval
Het project waarvoor Hulsebos de beurs ontving heeft de naam DataLibra en loopt vanaf 2024 tot 2029. In die vijf jaar wil de onderzoeker met haar team niet alleen inzichten verwerven, maar ook concrete tools bouwen die organisaties kunnen gebruiken om meer inzichten te verkrijgen uit data. “Eigenlijk moet het net zo eenvoudig zijn om de data in je organisatie te bevragen als dat het is om een zoekvraag in Google uit te voeren”, zegt Hulsebos. “AI kan hierin een grote rol spelen, omdat het het mogelijk maakt om natuurlijke taal te gebruiken in plaats van dat mensen kennis moeten hebben van programmeren, business intelligence en relationele databases.”
Dat AI hier een rol kan spelen, lijkt tegenstrijdig. Jarenlang gold AI als oplossing voor ongestructureerde data, zoals tekst, beeld en video, terwijl gestructureerde data in tabellen juist makkelijk doorzoekbaar zou zijn. Maar het probleem zit niet in de structuur zelf, legt Hulsebos uit, maar in de diversiteit ervan. Elk systeem gebruikt andere kolomnamen en logica, waardoor traditionele methodes zoals SQL en pattern matching tekortschieten. “Je moet begrijpen wat de betekenis is van kolommen, niet alleen wat de naam is. En daar is machine learning heel goed in, omdat het kan generaliseren en context kan begrijpen.”
Het ophalen van de juiste dataset is pas het begin. “We noemen dat information retrieval, maar we willen naar insight retrieval”, verduidelijkt Hulsebos. “Als je de relevante tabellen hebt gevonden, moet je ze vaak nog combineren, linken of verwerken voordat je er een inzicht uit kunt halen.” Dat maakt het vraagstuk complexer dan alleen zoeken. Tegelijkertijd benadrukt ze dat volledige automatisering niet het doel is. “Niemand kan een inzicht zomaar vertrouwen. Je moet altijd kunnen uitleggen waarom een antwoord het juiste antwoord is voor die specifieke vraag. Transparantie en iteratie is daarin cruciaal.”
Automatiseren alledaagse data science taken
Op de vraag hoe table representation verschilt van het traditionele business intelligence, zegt Hulsebos: “Datascientists doen meer dan traditionele BI-taken zoals rapportages en dashboards; zij trainen ook machine learning modellen. Ons doel is om ook tools te ontwikkelen om repetitieve en alledaagse taken zoals data cleaning, validatie of het transformeren van data te automatiseren.” Er wordt wel gezegd dat data science 80 procent datawerk is en 20 procent modelleren. “Die 80 procent willen we zoveel mogelijk automatiseren, zodat data scientists zich kunnen focussen op dat andere deel waarin ze nadenken over de kritieke aspecten van problemen, bijvoorbeeld ethische vraagstukken.”
Daarnaast wil Hulsebos alle niet-datascientists meer mogelijkheden geven. “En dit raakt inderdaad aan business intelligence, maar op dit moment kost het nog heel veel tijd en geld om het zelf te doen, want er is nog steeds iemand nodig die dashboards in elkaar zet en die begrijpt wat de echte inzichtbehoefte is. Maar vaak ziet de persoon met een vraagstuk niet welke data kan helpen. En de persoon die de data beheert, begrijpt het vraagstuk niet. Die kloof is het probleem. Door ervoor te zorgen dat bijvoorbeeld relationale databases met gewone mensentaal bevraagd kunnen worden zonder dat iemand kennis hoeft te hebben van SQL of onderliggende datastructuren, kun je al veel meer inzichten genereren.”
Veel softwarevendoren claimen tegenwoordig al dit soort AI-features in hun producten te hebben, maar Hulsebos is daar nog niet van onder de indruk. “Het is heel makkelijk om iets te maken wat niet perse altijd goed werkt”, zegt ze. “Er zijn veel fancy demo’s van agentic data scientists of analysts, maar ik heb me verdiept in de benchmarks en de successrate is veelal nul. Het klinkt allemaal heel mooi, maar om daar daadwerkelijk te komen, moeten we nog veel doen.” Ze benadrukt het belang van robuustheid en transparantie van systemen. “Je kunt een LLM een vraag stellen en dan zal het altijd met een antwoord komen, maar het moet je ook kunnen overtuigen dat dit het goede antwoord is. Die transparantie en context is noodzakelijk voor adoptie.”
Context bepaalt gevoeligheid data
Precies die transparantie en context bleken cruciaal in een project dat Hulsebos recent uitvoerde voor de Verenigde Naties. Het illustreert niet alleen waarom bestaande tools tekortschieten, maar ook wat er nodig is om table representation learning in de praktijk te laten werken. De samenwerking kwam tot stand toen Hulsebos, eenmaal op het academische pad, het Humanitarian Data Centre benaderde. “Het humanitaire hulpaspect drijft me heel erg”, zegt ze. “Ik zag dat ik vanuit mijn positie maatschappelijke impact kon bewerkstelligen door samen te werken met de VN aan wetenschappelijke onderzoeksvragen.”
Het eerste gezamenlijke project richtte zich op het detecteren van gevoelige data, een vraagstuk dat direct aansluit bij haar eerdere onderzoek bij MIT naar wat tabellen betekenen. Het Humanitarian Data Centre faciliteert lokale organisaties om hulp te verlenen bij conflicten, natuurrampen en andere crises. Via hun platform Humanitarian Data Exchange (HDX) delen deze organisaties datasets die anderen kunnen gebruiken voor planning en coördinatie. “Het probleem is dat veel van die data uit conflictgebieden komt en extreem gevoelige informatie bevat”, legt Hulsebos uit. “Maar wat gevoelig is, verschilt hier fundamenteel van wat veel huidige systemen classificeren als ‘gevoelig’. Het gaan dan meestal om persoonsgegevens zoals naam en adres, maar hier kijken we verder, namelijk naar data die in een specifieke context gevaarlijk kan zijn. Denk bijvoorbeeld aan gedetailleerde coördinaten van ziekenhuizen in conflict zones. Die kunnen nieuwe aanvallen mogelijk maken. Dat soort datasets wil je eruit filteren voordat ze publiek toegankelijk worden.”
Samen met masterstudent Liang Telkamp ontwikkelde Hulsebos twee mechanismen om daar grip op te krijgen. Het eerste mechanisme neemt de volledige datacontext mee in zijn reasoning, waardoor het aantal false positives drastisch daalt. “Bestaande tools detecteren een adres en concluderen dat het gevoelig is”, verduidelijkt Hulsebos. “Maar een bedrijfsadres mag gewoon openbaar zijn. Je moet kijken naar in welk verband iets genoemd wordt, niet alleen naar het datatype.” Het tweede mechanisme – ‘retrieve then detect’ – koppelt datasets aan relevante policies en protocols die op dat moment gelden. “Als er ergens een conflict uitbreekt, verandert wat gevoelig is. Dan moet je systeem die nieuwe context kunnen ophalen en meenemen in zijn beoordeling.”
Die dynamische aanpak blijkt essentieel. Een dataset over ziekenhuizen in Nederland vraagt om een andere beoordeling dan diezelfde data uit Gaza. “Het is niet alleen situationeel, maar ook tijd-afhankelijk”, benadrukt Hulsebos. “Informatie die vijf jaar geleden niet gevoelig was, kan dat nu ineens wel zijn. Je moet dus kunnen redeneren over de context waarin data gebruikt wordt.”
De resultaten tonen aan dat de aanpak werkt, vooral bij het detecteren van persoonlijke informatie. Maar ook voor situationeel gevoelige data blijkt het systeem waardevol. “De Quality Assessment Officers bij de VN vonden de gecontextualiseerde toelichting van de LLMs al enorm nuttig”, vertelt Hulsebos. “Die information sharing protocols zijn superlange documenten. Dat het systeem daar de relevante regels uithaalt en uitlegt waarom iets gevoelig is, was al heel inzichtelijk voor ze.” Het werk van Telkamp, die inmiddels bij de VN werkt aan de integratie, werd onlangs beloond met de Amsterdam AI Thesis Award, mede vanwege de maatschappelijke impact.
Inzichten uit data breder beschikbaar maken
Het VN-project illustreert een specifiek probleem, maar de onderliggende uitdaging – hoe maak je data toegankelijk en begrijpelijk – speelt in elke organisatie. Het begrijpen van gevoeligheden in data binnen de context van een organisatie is altijd nuttig, stelt Hulsebos. Bovendien is het goed om je te realiseren dat LLMs getraind worden op allerlei datasets die ze van het internet halen, waaronder data sharing portals. “Het is zo belangrijk om ervoor te zorgen dat er geen gevoelige data op die portals beland, want wanneer het eenmaal in de trainingsdata van die modellen zit, gaat het er niet meer uit.” Maar ook benutten organisaties de data die ze verzamelen nog niet volledig. “We weten niet wat we niet weten”, zegt Hulsebos. “Mensen stellen vragen over zaken waar ze al van weten dat die data bestaat”, legt ze uit. “Maar hoeveel inzichten mis je omdat je niet weet dat bepaalde data er überhaupt is? Of omdat je niet weet welke datasets je zou moeten combineren om een antwoord te krijgen?”
Hulsebos wil dan ook inzichtelijk maken wat mensen nog niet weten van hun data en toegang tot data en inzichten breder beschikbaar maken in organisaties. “Voor een CEO is het heel nuttig wanneer iedereen binnen zijn of haar organisatie direct toegang heeft tot inzichten die hen helpen om belangrijke beslissingen te nemen.” Zonder dat eerst de data science- of business intelligence-afdeling aan het werk moet worden gezet. “Dit is een barrière voor bijvoorbeeld iemand in sales, logistics of finance om snel een belangrijke vraag te kunnen stellen. Tegen de tijd dat er een BI dashboard of SQL query opgeleverd wordt, is het inzicht al niet meer relevant.” Dat vraagt om AI-powered systemen die inzichten uit gestructureerde data democratiseren, zodat mensen direct kunnen handelen en beslissen. “Snelheid tot inzicht is de key factor.”
Concrete oplossingen voor het bedrijfsleven zijn in ontwikkeling. Een van Hulsebos’ PhD-studenten bouwt tools om het retrieval-aspect te automatiseren en het genereren van SQL-queries te ondersteunen. “Die tools maken we allemaal open source beschikbaar”, zegt Hulsebos. “We proberen dingen ook echt bruikbaar te maken, niet alleen te publiceren. Binnen nu en twee maanden zijn er al eerste versies beschikbaar.” Een voorbeeld is DataScout, een tool die Hulsebos tijdens haar tijd bij UC Berkeley ontwikkelde. Het systeem helpt gebruikers datasets te vinden op basis van hun taak of probleem, in plaats van op zoekwoorden. “Task-based search met LLMs die proactief meedenken blijkt ontzettend nuttig”, legt ze uit. In user studies bleek DataScout sneller en effectiever dan traditionele dataplatforms met keyword search. “Als data scientist kon het zomaar twee weken tot een maand duren voordat je de juiste data had verzameld voor een machine learning model”, vertelt Hulsebos. Dat zulke systemen nog niet standaard zijn in dataplatforms, terwijl ze weken aan zoekwerk kunnen besparen, verbaast Hulsebos nog steeds. “Het doel is dat iedereen in een organisatie – van CEO tot salesmedewerker – direct vragen kan stellen aan hun data. Zonder tussenlaag, zonder wachttijd.”