Zo werkt pseudonimiseren

Een auteur die niet wil dat het publiek weet dat hij een bepaald boek heeft geschreven, gebruikt daarvoor een pseudoniem. Door dat idee te gebruiken in data-analyse, kunnen gegevens uit verschillende databronnen met elkaar worden vergeleken zonder dat de privacy van betrokkenen in het geding komt.

Maar hoe werkt dat pseudonimiseren nou onder de motorkap? Edwin Kusters, medeoprichter en directeur van Viacryp, legt het graag uit.

“Pseudonimiseren is een proces waarbij identificerende gegevens worden vervangen door een code. Zo kun je nog steeds zien dat iemand een boek heeft gekocht en dat diegene drie weken later een ander boek koopt, maar je ziet niet wíe dat is. Voor veel doelen en analyses is het immers ook niet relevant om de persoon achter de gegevens te kennen. Wanneer je de reizigersstroom efficiënt over een trein wilt verdelen, is het niet nodig om te weten wíe er op het perron staat, maar alleen of er een stoel beschikbaar is en in welk treinstel.”

Technisch en organisatorisch
“Als onafhankelijke derde partij hebben we bij Viacryp een dienst ontwikkeld om de privacy van mensen te kunnen waarborgen wanneer een organisatie onderzoek doet met behulp van persoonlijke data. Belangrijk is dat onze dienst uit zowel een technische als organisatorische component bestaat.

In de AVG staat herhaaldelijk dat bedrijven zowel technische als organisatorische maatregelen moeten treffen om de privacy van de gebruikers te waarborgen. Je kunt immers een prachtig technisch systeem implementeren, maar wanneer gebruikers zich niet bewust zijn van het doel ervan of van de risico’s van een datalek, ben je nog steeds niet goed bezig.”

“Een schending van de privacy kan verstrekkende gevolgen hebben. Geld kun je verliezen en opnieuw verdienen, maar wanneer er gevoelige gegevens van iemand onbedoeld publiek worden gemaakt, kun je dat vrijwel niet meer uitwissen. Vraag maar aan Patricia Paay. Het feit dat ik haar noem en dat iedereen direct weet waarover ik het heb, zegt genoeg. Terwijl dit alweer een paar jaar geleden speelde. Dat geeft maar aan hoe cruciaal privacy is.

Hashen en versleutelen
“Ons bestaansrecht is het bewaken dat data niet eenvoudig gekoppeld kan worden buiten de afgesproken kaders waarbinnen organisaties die data hebben verkregen. Dat doen we door de datasets, bij de verschillende partijen die hun gegevens willen koppelen, te ‘hashen’. Dat betekent dat er via een algoritme een code, de hash, wordt toegekend aan een identificerend gegeven. Waar dat gegeven ook in een dataset voorkomt, krijgt het steeds dezelfde hash. Zo kun je vergelijken, zonder te herleiden. Dit gaat dus om het ‘wie’.

Daarnaast heb je gedrag of informatie óver die wie. Dat is een ander deel van het proces en daar zorgen we voor encryptie. Versleutelde informatie heeft altijd twee sleutels, de publieke en de private. De publieke sleutel wordt gebruikt om de data te versleutelen, en kan openbaar worden gemaakt. Maar alleen degene met de private sleutel, kan de gegevens weer decoderen.”

Informatie filteren
“Een goed voorbeeld is het onderzoek van de politie naar mensen die een overtreding hebben begaan. Wanneer er een actief onderzoek loopt, is het handig dat de politie aan de hand van kentekens kan zien wie er de stad in en uit rijdt. Maar je moet je afvragen of de politie ook alle gegevens van mensen waartegen geen verdenking bestaat, verzamelt.

Door onze filterdienst te gebruiken kan de politie een set gehashte kentekens, van alleen de verdachten, vergelijken met een bestand uit bijvoorbeeld milieucamera’s die registreren welke auto’s langskomen. Ook deze kentekens zijn gehasht, en wanneer er een match is, kan de politie alleen díe gegevens inzien. Zo blijft de privacy van bestuurders die niets met de politie te maken hebben, gewaarborgd.”

Gerelateerde berichten...