Saviez-vous que la plupart des Américains (87 %) peuvent être identifiés de manière unique à partir de seulement trois données personnelles : une date de naissance, un code postal à cinq chiffres et le sexe ? Un peu déconcertant, non?
Cette statistique souvent citée a été initialement rapportée il y a près de 15 ans dans un document de recherche AT&T de 2001 sur les informations personnellement identifiables (PII). Même si les dates ont changé et que les volumes de données ont augmenté de façon exponentielle depuis ce rapport, le défi est toujours le même : protéger son identité personnelle au nom de la vie privée.
Les PII sont au cœur du débat sur les données anonymisées. Dans mon dernier post, j’ai démystifié une croyance sur les données anonymisées, à savoir : Les données anonymisées gardent mon identité personnelle privée. L’énoncé le plus précis que j’ai proposé était : Les individus peuvent être ré-identifiés à partir de données anonymisées. Explorons celui-ci un peu plus loin.
À propos des PII et des données anonymisées. Que signifie anonymiser (ou anonymiser) des données ? En termes simples, cela signifie supprimer toute information d’un ensemble de données qui pourrait personnellement identifier un individu spécifique ; par exemple, le nom de la personne, un numéro de carte de crédit, un numéro de sécurité sociale, l’adresse du domicile, etc. Les entreprises qui vendent des données sur les consommateurs, telles que les courtiers en données, ne vendent généralement que des données anonymisées et souvent agrégées. Donc, si les informations personnelles sont supprimées de ces ensembles de données (comme illustré dans la figure ci-dessous), quel est le problème ?
Si nous parlons d’un seul ensemble de données (comme dans l’exemple ci-dessus), ce n’est probablement pas si grave. Là où cela devient intéressant, cependant, c’est lorsque plusieurs ensembles de données sont combinés. La figure ci-dessous est une vue simpliste de ce qu’un agrégateur de données (ou courtier) fait avec des ensembles de données :
Ces deux ensembles de données pourraient être totalement inoffensifs, mais lorsqu’ils sont réunis et analysés au fil du temps, ils pourraient introduire de nouveaux problèmes de confidentialité. Cynthia Dwork de Microsoft l’illustre ainsi : « Quel est le mal à apprendre que j’achète du pain ? Il n’y a aucun mal à apprendre cela, mais si vous remarquez qu’avec le temps, je n’achète plus de pain, vous pouvez conclure souffrez de diabète… Ce qui se passe ici, c’est un échec des mécanismes de confidentialité ; ils ne composent pas efficacement. »
Pourquoi cela compte. Revenons à ma question précédente : si mes informations personnelles identifiables (PII) sont supprimées et agrégées avant d’être vendues ou transmises, quel est le problème ?
Le gros problème est le suivant : avec les technologies Big Data d’aujourd’hui, il devient plus facile de ré-identifier les individus à partir de ces données anonymisées. Des techniques de programmation continuent d’être développées pour rassembler ces éléments anonymisés à partir d’un ou plusieurs ensembles de données. Donc, si une entreprise dit qu’elle anonymise vos données avant de les transmettre à d’autres, sachez que votre identité pourrait toujours être révélée grâce à des techniques avancées de ré-identification.
Il y a en fait un débat houleux à ce sujet. Un camp soutient fermement les techniques et les algorithmes utilisés pour anonymiser les données ; et ils sont plutôt convaincus que les individus ne peuvent pas être ré-identifiés parce que la technologie n’est tout simplement pas là. L’autre camp ne l’accepte pas et dit que les algorithmes de ré-identification fonctionnent, en fait, et ne font que s’améliorer. Ils soulignent également que certaines des techniques d’anonymisation actuellement utilisées ne fonctionnent tout simplement pas.
J’ai tendance à être d’accord avec ce dernier camp. Même si cela ne se produit pas maintenant, ce n’est qu’une question de temps avant que les technologies et les algorithmes n’atteignent un niveau de sophistication qui non seulement ré-identifie les individus plus rapidement, mais le fait plus rapidement et à moindre coût.
Une dernière pensée. Les algorithmes de ré-identification ne sont ni bons ni mauvais ; cela dépend juste de la façon dont ils sont utilisés. Ainsi, lorsqu’une entreprise ou un courtier en données bien intentionné vous dit que vos informations personnelles sont protégées et ne sont ni partagées ni vendues à d’autres, ce n’est pas une invitation à baisser la garde. Vous savez comment cela fonctionne maintenant, alors faites attention et soyez vigilant.