Gegevens pseudonimiseren
Pseudonimiseren is een beveiligingsmaatregel. Door persoonsgegevens te pseudonimiseren maakt u het moeilijker om deze gegevens te herleiden naar personen. En dat maakt bijvoorbeeld de impact kleiner bij een datalek. Een methode die u kunt gebruiken om persoonsgegevens te pseudonimiseren is hashing.
Pseudonimiseren is geen anonimiseren
Pseudonimiseren is niet hetzelfde als anonimiseren. Bij gepseudonimiseerde gegevens is weliswaar niet direct duidelijk over welke personen de gegevens gaan, maar de gegevens kunnen alsnog herleidbaar zijn tot specifieke personen door aanvullende gegevens te gebruiken.
Organisaties slaan pseudoniemen bijvoorbeeld vaak op in combinatie met aanvullende informatie. Is deze aanvullende informatie onderscheidend genoeg? Dan is het hiermee mogelijk om gepseudonimiseerde gegevens te herleiden naar individuele personen.
Een geboortedatum in combinatie met de 4 cijfers van een postcode is bijvoorbeeld vaak uniek genoeg om een persoon te herleiden met informatie uit de Basisregistratie Personen (BRP).
Guidelines over anonimiseren en pseudonimiseren
De European Data Protection Board (EDPB) werkt aan guidelines over anonimiseren en pseudonimiseren. Zodra de guidelines gepubliceerd zijn, vindt u ze op deze website.
Voldoen aan de AVG bij pseudonimiseren
Pseudonimiseren is een verwerking van persoonsgegevens. Dat betekent dat u zich moet houden aan de Algemene verordening gegevensbescherming (AVG). Dat betekent onder meer dat u gepseudonimiseerde gegevens nog steeds goed moet beveiligen.
Let op: Verwijdert u (alleen) direct identificerende informatie, zoals namen? Dat is geen pseudonimisering als de overgebleven gegevens voldoende informatie bevatten om deze te herleiden naar individuele personen.
Hashing van persoonsgegevens
Hashing is het toepassen van een berekening (cryptografische hashfunctie) om gegevens met verschillende omvang te veranderen naar gegevens met dezelfde omvang. Ook bij hashing moet u zich aan de AVG houden. Want gehashte persoonsgegevens zijn meestal gepseudonimiseerde persoonsgegevens.
Cryptografische hashmethoden zijn ontworpen om het zo moeilijk mogelijk te maken om van een hashwaarde terug te rekenen naar het oorspronkelijke gegeven. Maar in de praktijk blijkt dat het toch mogelijk is om gehashte persoonsgegevens te herleiden naar een individu.
Gehashte gegevens vaak niet anoniem
Dit zijn de 3 meest voorkomende redenen waarom gehashte persoonsgegevens vaak niet anoniem zijn:
- Oorspronkelijke gegevens zijn vaak nog beschikbaar. Gegevens zijn niet anoniem zolang de oorspronkelijke gegevens nog beschikbaar zijn. Door alle oorspronkelijke gegevens opnieuw te hashen en de pseudoniemen naast de oorspronkelijke gegevens op te slaan, is een koppeltabel te maken. Met deze koppeltabel kan iemand alsnog een link leggen tussen de pseudonieme gegevens en de oorspronkelijke gegevens. In de praktijk blijkt dat dit vaak mogelijk is. Er is dan sprake van pseudonimisering en niet van anonimisering.
- Hashwaardes zijn te reproduceren. U kunt de oorspronkelijke gegevens herleiden uit een nieuwe berekening van de hashwaardes van alle mogelijke oorspronkelijke gegevens. Net zo lang totdat u een match heeft. Ieder uniek gegeven heeft namelijk een eigen unieke hashwaarde die onveranderlijk is. Dit heet een ‘brute force attack’. Bijvoorbeeld: u heeft een lijst met een aantal gehashte Nederlandse telefoonnummers. Iemand zou dan alle telefoonnummers in Nederland kunnen hashen en de hashwaardes vergelijken met uw lijst. Gelet op de rekenkracht van computers is dit ook een risico voor gegevens als burgerservicenummers en IP-adressen.
- Er kan aanvullende informatie beschikbaar zijn. Met aanvullende informatie die beschikbaar is bij de organisatie zelf of vanuit externe bronnen kan het mogelijk zijn om gepseudonimiseerde gegevens te herleiden naar individuele personen.
Afknippen van hashes
Wilt u persoonsgegevens anonimiseren door de gegevens te hashen en vervolgens af te knippen? Let dan op dat u voldoende afknipt. Te weinig afknippen van hashwaardes laat namelijk unieke identificatoren achter. En dan is er dus géén sprake van geanonimiseerde gegevens. Zie verder: Techblogpost: Praktische problemen bij het afknippen van hashes.