De pandemie te lijf met big data analytics / Hoe kun je onderzoekdata van anderen hergebruiken?

big data analytics

Nu in Nederland de relatieve rust in de coronacrisis is weergekeerd, is het tijd om ons voor te bereiden op een eventuele tweede golf. Grootschalig onderzoek, gebruikmakend van wereldwijd beschikbare patiëntdata, is daarbij onmisbaar. Vanwege privacy-risico’s kun je echter niet zomaar data in verschillende databases samenvoegen. Bovendien is het belangrijk dat data vindbaar, interoperabel en herbruikbaar zijn. Met distributed learning en FAIR-dataprincipes zijn afgelopen jaren nieuwe concepten ontwikkeld die deze uitdagingen aankunnen.

Welke combinatie van onderliggende ziektebeelden vergroten de kans op een ernstig verloop van COVID-19? Op basis van welke factoren kunnen we het nu vaak onvoorspelbare ziekteverloop beter voorspellen? Welke patiëntgroepen reageren het best op welke therapie? Wat is het optimale moment om een therapie te beginnen en te beëindigen? En zo zijn er nog tientallen andere vragen waar artsen graag antwoord op zouden willen hebben.

Grote patiëntpopulaties

De antwoorden liggen verscholen in data van patiënten die eerder COVID-19 hebben gehad. Wat was hun leeftijd? Hoe was hun gezondheid voordat ze besmet raakten met het virus? Hoe was het ziekteverloop? Hebben ze een therapie gehad en wat was het effect daarvan? Hoeveel antistoffen zijn er op welk moment in hun bloed gevonden? Hoe groter de variëteit aan de data – mensen in verschillende stadia van de ziekte, mannen, vrouwen, mensen van verschillende afkomst, patiëntpopulaties uit verschillende landen – hoe groter de kans dat nieuwe inzichten ontstaan en hoe beter kan worden voorspeld wat voor iedere individuele patiënt de beste behandelmethode is.
We weten al jaren dat big data-onderzoek op grote patiëntpopulaties veel meerwaarde toevoegt aan de bestaande vormen van onderzoek middels klinische trials. Tegelijkertijd is deze vorm van onderzoek lastig. Vanwege allerlei privacyregels is het bijna onmogelijk om data van patiënten die in verschillende ziekenhuizen worden behandeld te combineren. Laat staan dat je data van vele duizenden patiënten uit meerdere landen zomaar kunt samenvoegen. Privacywetgeving staat in de weg. Bovendien is het technisch vaak een uitdaging om hele grote bestanden heen en weer te sturen. Ook administratief komt er veel bij kijken om data met meerdere ziekenhuizen te delen. Daardoor wordt bijvoorbeeld vrijwel alle kankeronderzoek nog gedaan op een subset van de patiëntenpopulatie. We weten dat het leerrendement veel hoger zou zijn als al die subsets in samenhang worden onderzocht, maar de zojuist genoemde hobbels waren lange tijd onneembaar.

Verplaats het algoritme

De laatste jaren zijn er echter grote stappen gezet om deze problemen op te lossen, onder meer door een groep onderzoekers onder leiding van Prof.dr.ir. André Dekker van bestralingsinstituut Maastro, tevens hoogleraar Clinical Data Science bij MUMC+. Deze groep doet onderzoek naar kanker en liep tegen de hierboven beschreven problemen aan. Zij kwamen met het idee: als we de data niet naar het algoritme kunnen brengen, waarom brengen we het algoritme dan niet naar de data? In dat geval hoeven de onderzoekers de data zelf niet te bekijken, dat doet het algoritme voor ze. De onderzoekers trainen het algoritme op afstand, zonder zelf de data te kunnen zien. Dat is ook niet nodig om de voorspellende kracht van het algoritme te beoordelen.
Dit concept wordt ook wel distributed learning genoemd: leren van data die zich op verschillende plekken bevindt. Dit concept heeft nog een nevenvoordeel: er hoeven geen grote datasets heen en weer te worden gestuurd. Dat betekent dat de bestaande internetverbinding van het ziekenhuis voldoende is.
De onderzoekers noemen het concept Personal Health Train (PHT). Ze gebruiken de metafoor van treinen. Zij zijn de workflows met onderzoeksvragen en de algoritmen die worden gebruikt voor data-analyse. De stations zijn de plekken waar data staat. Dit kunnen hele grote databases in klinieken zijn, maar ook kleine applicaties waarmee patiënten zelf hun eigen data verzamelen zoals gezondheids- of sportapps. De stations bepalen wat een langskomende trein met de data mag doen. Dat kan variëren van ‘niemand mag iets met deze data doen’ tot ‘iedereen kan dit data-element gebruiken’. De spoorlijnen tot slot zorgen ervoor dat de algoritmen en onderzoeksvragen op een veilige manier bij de data komen. Dankzij de spoorlijn kan er interactie plaatsvinden tussen onderzoekers en data.

FAIR data

PHT geeft artsen en onderzoekers op een gecontroleerde manier toegang tot heterogene databronnen. Tegelijkertijd is de privacy gegarandeerd omdat patiënten en burgers zelf kunnen aangeven welke data ze voor welke doeleinden beschikbaar stellen. PHT maakt gebruik van twee principes: de data blijft waar die is en de data moet FAIR zijn.
FAIR staat voor Findable, Accessible, Interoperable en Reusable.
Findable – de metadata en de onderliggende data moeten op een makkelijke manier kunnen worden gevonden door zowel mensen als computers. Dit betekent dat alle data moeten worden beschreven met rijke metadata. De metadata moeten bovendien voorzien zijn van een wereldwijd unieke en permanente identifier. Ook moeten ze worden geregistreerd in of geïndexeerd door een doorzoekbare bron. Dit alles maakt het mogelijk dat machines de metadata kunnen lezen.
Accessible – als het algoritme de data vindt, moet het weten hoe het toegang krijgt tot deze data, inclusief eventuele authenticatie en autorisatie. Dit betekent dat de metadata gevonden moeten kunnen worden met hun identifier, gebruikmakend van een standaard communicatieprotocol. Het protocol moet open en vrij toegankelijk zijn, door iedereen geïmplementeerd kunnen worden en indien relevant moet het protocol een authenticatie- en autorisatieprocedure ondersteunen. Dit betekent niet dat de data zelf open hoeft te zijn, het moet duidelijk zijn of en hoe toegang tot de data kan worden gekregen. Ook als de onderliggende data zelf niet langer beschikbaar zijn, moeten de metadata toegankelijk blijven.
Interoperable – de data worden meestal geïntegreerd met andere data en moeten voor analyse, opslag en processing toegankelijk kunnen worden gemaakt in verschillende applicaties en workflows. Daarom moeten de data worden geschreven in een breed geaccepteerde taal en moeten er referenties zijn in de data en metadata naar andere (meta)data. Op die manier wordt het mogelijk om verschillende databronnen in samenhang te onderzoeken en verschillende data te combineren.
Reusable – het ultieme doel van FAIR is het hergebruik van data te optimaliseren. Daarom is het belangrijk dat de metadata rijk zijn en dus verschillende accurate en relevante attributen bevatten. De metadata moeten beschrijven voor welke doelen de data kan/mag worden gebruikt en voor welke doelen niet. Ook moet de herkomst van de data duidelijk zijn. En tot slot moet de data voldoen aan domeinspecifieke en relevante standaarden.

Eén verbindende nationale infrastructuur

Het PHT-concept kent vele toepassingsmogelijkheden. Allereerst vormt het een uitstekende infrastructuur om onderzoek te doen op grote, gedistribueerde datasets. Daarnaast biedt het artsen de mogelijkheid tot personalized medicine. In dat geval zoekt een trein voor een specifieke patiënt uit wat de beste behandeling is. Daarnaast kan de infrastructuur van de PHT gebruikt worden om data van het ene naar het andere ziekenhuis te verplaatsen. In dat geval bevat de trein geen onderzoeksvraag of algoritme, maar patiëntdata. Kortom, van een onderzoekinfrastructuur die primair wordt gebruikt voor onderzoek naar kanker ontwikkelt PHT zich naar een breed toepasbare zorginfrastructuur. Het is dan ook niet vreemd dat dit concept ook ingezet wordt om onderzoek te doen naar COVID-19. Sterker, Health-RI (Research Infrastructure) promoot PHT en FAIR.
Health-RI is opgezet door een aantal Nederlandse onderzoeksorganisaties en biedt een duidelijke visie en roadmap om te komen tot één verbindende nationale infrastructuur voor personalized medicine en geneeskundeonderzoek. Naast PHT en FAIR bundelt de organisatie ook andere oplossingen en concepten, waaronder een aantal open source producten. Op deze manier wil Health-RI versnippering voorkomen. Dat is ook de reden dat de organisatie nauw samenwerkt met het RIVM, het ministerie van VWS, de NFU en alle UMC’s. Op de website www.health-ri.nl staat een overzicht van de stappen die tot nu toe zijn gezet in het onderzoek naar COVID-19. Maar je kunt er ook terecht als je andere typen van big data research wilt doen.

 

Gerelateerde berichten...