Hoe krijgen we inzicht in big data en AI

Voor de acceptatie van AI in de gezondheidszorg is het belangrijk dat artsen inzicht hebben in hoe de resultaten tot stand komen. Dat is lastig bij AI gebaseerd op deep learning en het concept van de black box waarin een algoritme zijn werk doet. Artsen maken nog weinig gebruik van data uit gezondheidsapps, wat niet zo verwonderlijk is als je bedenkt dat ‘big data’ de nodige uitdagingen kennen. Hoe meer techniek de gezondheidszorg binnensluipt, hoe meer vraagstukken geadresseerd moeten worden, ook in de boardroom van het zieken- of verpleeghuis. Waar moeten we dan aan denken?

Als de Wet elektronische gegevensuitwisseling in de zorg in werking treedt – naar verwachting ergens dit jaar – is duidelijk waaraan elektronische gegevensoverdracht moet voldoen voor volledige interoperabiliteit tussen zorgaanbieders. Interoperabiliteit stelt eisen aan taal en techniek, maar is onafhankelijk van specifieke elektronische infrastructuur. Dat biedt enorme kansen, maar vraagt van zorgaanbieders ook de verantwoordelijkheid om hun data zonder fouten en zonder onwenselijke vooroordelen op te slaan. Voor veel zorgaanbieders ligt hier een flinke uitdaging, alleen al doordat het aanleggen van databestanden in het verleden rijp en groen gebeurde. Bovendien bewijst de toeslagenaffaire dat dataverzamelingen niet per definitie een neutrale set van gegevens zijn. Iedere dataset is het gevolg van menselijke keuzen om een aantal kenmerken (of data) in één set te verzamelen, om daarop vervolgens een analyse toe te passen, die ook weer het gevolg is van menselijke keuzen. Naast inherente vooroordelen kunnen datasets ook onjuiste data bevatten, verouderd zijn en onvolledig.

Data, context en governance

Als je deze data van derden ook nog eens gaat verrijken/verwerken met AI, zonder dat je zelf zicht hebt op de datakwaliteit, loop je het risico dat het mis gaat. Met ‘data’ speelt bovendien het aspect van context. Stel, je ziet hartslag en temperatuur plotseling stijgen. Als het van een mens in een ziekenhuisbed is, dan is het waarschijnlijk foute boel. Maar als die mens hard een trap op rent, is het logisch. Vaak echter ontbreekt context over data. Dat wil niet zeggen dat die data daarmee op slag niets waard zijn, maar wel dat je die data niet kunt gebruiken als trainingsdata voor een algoritme. Als je bovendien zeker wilt weten dat de datakwaliteit goed genoeg is om algoritmen te trainen, is een goede governance-structuur onontkoombaar. Zonder governance op de kwaliteit van data wordt het snel gevaarlijk, want voor je het weet train je jouw model met onbetrouwbare data of data die uit hun context zijn gehaald. Governance brengt echter hoge kosten met zich mee.
Een ander aspect is hoe om te gaan met de gevoelige informatie die in gezondheidsdata is opgeslagen. Patiënten moeten te allen tijde eigenaar blijven van hun data en tenminste inspraak hebben in wat er met die data gebeurt. Dat klinkt logisch, maar ook dat is in de praktijk nog een flinke uitdaging. Gezondheidsdata zijn om meerdere redenen interessant voor verschillende partijen. Het delen, in geaggregeerde vorm, met partijen als verzekeraars en farmaceutische industrie om de gezondheidszorg te verbeteren, klinkt mooi, maar wat gebeurt er bijvoorbeeld met die data als ze eenmaal zijn ingezet? En wie zorgt ervoor dat patiënten wordt gevraagd wat er daarna met hun data mag gebeuren? Uit het jaarlijkse onderzoek van Cisco, de Data Privacy Benchmark Study, blijkt dat consumenten meer transparantie willen over wat algoritmen met hun data doen.

Opinions embedded in code

Datasets zijn niet neutraal, maar een algoritme op zijn beurt is evenmin neutraal of objectief. Wiskundige Cathy o’Neill verwoordt het in een beroemd geworden Ted-talk als volgt: ‘Algoritms are opinions embedded in code’. Een bekend voorbeeld is het algoritme dat uit een grote hoeveelheid data buurten selecteert waar naar verhouding meer misdaad voorkomt. De politie extra laten surveilleren in dergelijke buurten lijkt dus een goed idee. Maar wat gebeurt er dan? Doordat de politie extra surveilleert, worden daar meer boeven aangehouden, waarmee het algoritme weer gevoed wordt en daarmee de indruk versterkt dat in die buurten meer misdaden gebeuren. Dat probleem speelt ook in de medische hoek. Een algoritme dat is getraind om afwijkingen op röntgenfoto’s te zien, op basis van heel veel beelden van de betreffende afwijking, is daar vaak prima toe in staat. Zo’n algoritme heeft alleen niet geleerd om andere typen diagnoses te stellen.
Bij Radboudumc ontwikkelde een promovenda een diagnostische AI dat dit probleem omzeilt. Het algoritme blijft zoeken naar afwijkingen, ondanks eerder gevondene. De systematiek hierachter maakt inzichtelijk hoe het algoritme werkt. Dat is enorme winst, omdat dit vaak niet transparant is. Deze zogeheten ‘black box van AI-beslissingen’ ontstaat doordat maar weinig mensen die een algoritme bestuderen, begrijpen wat ze zien.

Causaliteit niet vanzelfsprekend

Aangezien een algoritme zelf patronen leert kennen, weten we niet hoe het tot zijn kennis is gekomen. Hoe weten we vervolgens dat de relaties die AI in de dataverzameling legt causaal zijn? Dat sprake is van correlatie – het tegelijk voorkomen van twee of meer dingen – betekent voor de AI dat er een relatie is. Die relatie wordt belangrijk gevonden en meegenomen in de berekening. Het interesseert de AI niet of ook sprake is van causaliteit in die relatie of hoe die relatie is veroorzaakt. Een mens heeft die informatie juist nodig om het algoritme te begrijpen. Anders gezegd: dokters hebben een beter totaalbeeld dan diagnostische AI. Een arts kijkt naar het grote geheel en vraagt zich af: wat zie ik?
Er is inmiddels een nieuw onderzoeksveld van interpreteerbare AI, die in het AI-systeem kan kijken om te zien wat er gebeurt. Een hulpmiddel bij het begrijpen van complexe algoritmen. Daarmee kunnen artsen, maar ook patiënten, in de toekomst een duidelijk beeld krijgen van de wijze waarop het algoritme bepaalde keuzen heeft gemaakt. De kans is groot dat het voor een breder draagvlak van AI bij beiden, arts en patiënt, gaat zorgen.

Blijf op de hoogte, abonneer!

Achter de schermen van de Formule E strijdt TCS digitaal mee

AI dwingt datacenters tot grote veranderingen

Team.blue al goed voor tien overnames in anderhalf jaar

Meertalige organisaties riskeren inconsistente AI-antwoorden

The AI reality tour

GITEX DIGI_HEALTH 5.0 - Thailand

IT Arena

Innovation Week 2025

Luxembourg Venture Days

Appdevcon

Ontgrendel het volledige potentieel van je SAP-omgeving

Hoffmann Tips Special – Cybersecurity Risk management

Een cloudstrategie is essentieel voor het succes van uw bedrijf

Is Your Environment Adaptive Enough for Zero Trust?

Blijf op de hoogte, abonneer!

Data, context en governance

Opinions embedded in code

Causaliteit niet vanzelfsprekend

Lees ook: