Données personnelles : anonymisation ou pseudonymisation ?

L’anonymisation des fichiers de données personnelles permet d’échapper à la réglementation sur les données personnelles.

L’anonymisation est une technique appliquée aux données à caractère personnel afin d’empêcher leur identification de façon irréversible. En l’absence d’irréversibilité, les techniques mises en place relèvent essentiellement de la pseudonymisation, laquelle, en réduisant simplement la corrélation d’un ensemble de données avec l’identité originale d’une personne concernée, ne permet pas de se soustraire à la réglementation relative aux données personnelles.

  1. L’anonymisation

1.1.  Approche générale de la notion d’anonymisation

L’anonymisation offre une double garantie : celle de la sécurisation de l’exploitation des données personnelles et celle du respect des droits fondamentaux des personnes dont les données personnelles sont traitées. L’appréciation du caractère irréversible de l’anonymisation, lequel offre la possibilité ou non d’identifier une personne, dépend « des moyens susceptibles d’être raisonnablement mis en œuvre, soit par le RT, soit par une autre personne ». Dans le cas où un responsable de traitement transfère certaines données non identifiantes mais n’efface pas les données personnelles de ses systèmes, il doit être considéré que les données transmises constituent encore des données à caractère personnel, et ce même si les identifiants directs ont été supprimés. Dans ce type de cas, seule la transformation des données en données statistiques agrégées à un niveau supérieur assure une réelle anonymisation, par exemple « le samedi, dans la boutique Y, le nombre de visiteurs est supérieur de 350 % à celui du lundi ».

Au regard de la Loi Informatique et Libertés, l’anonymisation a vocation à être utilisée à deux stades différents :l’anonymisation à bref délai : Dans ce cas, le processus d’anonymisation suit immédiatement la collecte des données (quelques minutes). Toutefois, du fait de l’existence d’un temps, bien que bref, entre la collecte des données et leur anonymisation réelle, la CNIL reste compétente pour autoriser la mise en place du procédé d’anonymisation. Dans la mesure où l’anonymisation à bref délai permet à l’entreprise de se voir exemptée d’appliquer certaines règles de la loi de 1978 (notamment en matière d’information préalable des personnes), la CNIL appréciera l’efficacité du procédé envisagé afin de garantir la sécurité des personnes dont les données personnelles sont traitées (voir arrêt du Conseil d’Etat JC DECAUX https://www.village-justice.com/articles/anonymisation-des-donnees-personnelles-selon-Conseil-Etat-arret-JCDecaux,24541.htmll’anonymisation « ultérieure », en tant que second traitement des données : le processus d’anonymisation se fera un certain temps après la collecte, imposant dès lors à l’entreprise le respect de toutes les exigences légales et règlementaires en matière de données personnelles, jusqu’à ce qu’elles soient effectivement anonymisées

1.2. Les techniques d’anonymisation

Deux grandes familles de techniques visent à altérer le lien entre les données personnelles collectées et l’individu auxquelles elles se rapportent : la randomisation et la généralisation.

Par soucis de compréhension, nous précisons que chaque individu peut faire l’objet lors d’une collecte d’un ou de plusieurs enregistrements, chacun étant constitué de valeurs (ex : 178 cm) se rapportant à des attributs (ex : taille).

1.2.1. La randomisation :

Pour altérer le lien entre données et individu, les techniques de randomisation altèrent la véracité des données collectées. Parmi les procédés existants, la technique d’ajout de bruit consiste à modifier des attributs dans l’ensemble de données pour les rendre moins précis, tout en conservant la distribution générale. Pour traiter un ensemble de données, un observateur supposera que les valeurs sont exactes, même si cela ne sera vrai qu’à un certain degré. Par exemple, si la taille d’un individu a été mesurée à l’origine au centimètre près, l’ensemble de données anonymisées peut présenter une précision de ± 10 cm seulement. L’ajout de bruit devra ordinairement être combiné avec d’autres techniques d’anonymisation comme la suppression des attributs évidents et des quasi-identifiants. Le niveau de bruit devrait dépendre du niveau d’information requis et de l’impact que la divulgation des attributs protégés aurait sur le respect de la vie privée des individus.

1.2.2.  La généralisation :

Cette approche consiste à diluer (ou généraliser), les attributs des personnes concernées en modifiant leur échelle ou leur ordre de grandeur respectif (par exemple, une région plutôt qu’une ville, un mois plutôt qu’une semaine). Si la généralisation peut être efficace pour empêcher l’individualisation, elle ne garantit pas une anonymisation effective à 100% et doit donc être combinée avec d’autres techniques.

1.3. Degré d’efficacité des techniques d’anonymisation

Rendre impossible l’identification d’une personne ne consiste pas en la seule suppression des éléments directement identifiants la concernant. Il existe en effet une série de procédés permettant d’exploiter un ensemble de données afin d’identifier un ou des individus.  L’appréciation du degré d’efficacité d’une technique d’anonymisation s’apprécie en imaginant qu’une personne malveillante pourrait procéder à des recoupements relevant de ces trois situations  :

  • L’individualisation : correspond à la possibilité d’isoler une partie ou la totalité des enregistrements identifiant un individu dans l’ensemble de données ;
  • La corrélation : consiste dans la capacité de relier entre eux, au moins, deux enregistrements se rapportant à la même personne concernée ou à un groupe de personnes concernées (soit dans la même base de données, soit dans deux bases de données différentes). Si une attaque permet d’établir (par exemple, au moyen d’une analyse de corrélation) que deux enregistrements correspondent à un même groupe d’individus, mais ne permet pas d’isoler des individus au sein de ce groupe, la technique résiste à  l’« individualisation», mais non à la corrélation;
  • L’inférence : est la possibilité de déduire, avec un degré de probabilité élevé, la valeur d’un attribut à partir des valeurs d’un ensemble d’autres attributs.

Une solution résistant à ces trois risques offrirait par conséquent une protection fiable contre les tentatives de réidentification, même si aucune technique n’est infaillible.

2. La pseudonymisation

L’article 4 du RGPD définit la pseudonymisation de la manière suivante : « (…) on entend par pseudonymisation : le traitement de données à caractère personnel de telle façon que celles-ci ne puissent plus être attribuées à une personne concernée précise sans avoir recours à des informations supplémentaires, pour autant que ces informations supplémentaires soient conservées séparément et soumises à des mesures techniques et organisationnelles afin de garantir que les données à caractère personnel ne sont pas attribuées à une personne physique identifiée ou identifiable. »

2.1. Approche de la notion de pseudonymisation

La pseudonymisation permet toujours d’identifier un individu grâce à ses données personnelles car elle consiste simplement à remplacer un attribut par un autre au sein d’un enregistrement. En effet, le considérant 26 du RGPD rappelle que « Les données à caractère personnel qui ont fait l’objet d’une pseudonymisation et qui pourraient être attribuées à une personne physique par le recours à des informations supplémentaires devraient être considérées comme des informations concernant une personne physique identifiable ».

Le Règlement communautaire qui entrera en vigueur le 25 mai 2018 évoque beaucoup la notion de pseudonymisation comme technique de respect du principe du Privacy By Design et de la minimisation des données (article 25 du RGPD notamment).

2.2. Techniques de pseudonymisation :

Les techniques de pseudonymisation sont nombreuses et offrent des garanties de sécurité variées, d’autant plus que les erreurs dans leur mise en œuvre sont courantes.

  • Système cryptographique à clé secrète :

Dans le cas d’un système cryptographique à clé secrète, le détenteur de la clé peut aisément réidentifier chaque personne concernée en décryptant l’ensemble de données, puisque les données à caractère personnel y figurent toujours, quoique sous une forme cryptée. En supposant qu’un système cryptographique conforme à l’état de la technique a été appliqué, le décryptage ne serait possible qu’à condition de connaître la clé.

  • Fonction de hachage :

La fonction de hachage renvoie un résultat de taille fixe, quelle que soit la taille de l’entrée encodée (l’entrée peut être un attribut unique ou un ensemble d’attributs). Evidemment, le risque consiste en la découverte de la fourchette dans laquelle se situent les valeurs. Afin de réduire ce risque, la fonction de hachage avec salage (où une valeur aléatoire, appelée « sel », est ajoutée à l’attribut qui fait l’objet du hachage) permet de réduire la probabilité de reconstituer la valeur d’entrée.

  • Fonction de hachage par clé, avec clé enregistrée :

Il s’agit d’une fonction de hachage particulière qui utilise une clé secrète comme entrée supplémentaire (à la différence d’une fonction de hachage avec salage, où le «sel» n’est généralement pas secret). Un responsable de traitement des données peut réexécuter la fonction sur l’attribut en se servant de la clé secrète, mais il est beaucoup plus difficile pour un attaquant de réexécuter la fonction sans connaître la clé car le nombre de possibilités à tester est suffisamment grand pour rendre la tâche impraticable.

  • Chiffrement déterministe ou fonction de hachage par clé avec suppression de la clé :

Cette technique équivaut à sélectionner un nombre aléatoire comme pseudonyme pour chaque attribut de la base de données et à supprimer ensuite la table de correspondances. En supposant qu’un algorithme conforme à l’état de la technique soit appliqué, il sera difficile pour un attaquant, en termes de puissance de calcul requise, de décrypter ou de réexécuter la fonction, car cela supposerait d’essayer chaque clé possible, puisque la clé n’est pas disponible.

Les sanctions prévues par le RGPD (20 millions d’euros d’amende ou 4%  du chiffre d’affaires mondial) vont sans nul doute inciter de nombreuses sociétés à recourir à l’anonymisation dès qu’elles le pourront.

Charlotte GALICHET

 

Bookmark the permalink.

Comments are closed