Re-identification: l'identification des personnes dans des bases de données anonymes

Print E-mail
Technologie - Général
Wednesday, 09 September 2009 12:58

reidentification En 2006, AOL était tenue par le gouvernement américain avec d'autres entreprises se fournissant un fichier anonyme avec vingt millions de recherches à partir de six hundred et fifty-seven milliers d'utilisateurs identifiés par des codes numériques, afin d'évaluer l'impact de la pornographie enfant. Après avoir rempli la demande, AOL a eu l'idée de démontrer son ouverture en publiant sur l'Internet ce fichier pour une utilisation par la communauté scientifique, total, et le fichier étant convenablement rendues anonymes et libres de tout renseignement personnel, ce qui pourrait arriver?

La surprise a été rapide: en quelques jours, Thelma Arnold, une femme de 62 ans vivant dans Lilburn, une petite ville de Géorgie, a reçu la visite à la maison par un journaliste qui lui demandait si une liste de recherche particulière a été effectivement la sienne. Un peu de recherche aux recherches des femmes avait révélé suffisamment de données pour identifier avec précision. L'affaire, qui a pris fin avec le départ de l'agent de la technologie chez AOL, a montré clairement que les implications de la divulgation de données dans l'intimité se termine pas au moment où le fichier est effacé des données strictement personnelles comme le nom, l'adresse IP ou numéro d'identification.

La ré-identification est juste cela, une analyse des dossiers anonymisés afin d'identifier des individus spécifiques de leur part. Un article paru dans Ars Technica, "" données anonymes 'est vraiment pas, et voici pourquoi pas », révèle qu'en fait 87% des Américains peuvent être identifiées dans une base de données en utilisant seulement trois données: code postal, sexe et date de naissance, non inclus dans les données d'identification qui sont habituellement retirés de tels fichiers prétendument radié. Un document de recherche de Paul Ohm contient les conclusions de ce qu'il appelle «la promesse de la vie privée" dans la pratique, toute recherche modérément grave peut identifier une personne à partir des informations fragmentaires à partir de fichiers prétendument anonymes ou modèles d'utilisation mis au point dans plusieurs de ses activités. Un utilisateur qui obsessionnelle cherché des moyens de tuer sa femme devrait s'inquiéter si, finalement, de commettre le crime serait trouvée sans trop de difficultés. La réponse, selon le chercheur, très clair: «les données de mai être utiles ou parfaitement anonymes, mais jamais les deux.

La plupart des exigences de stockage de données sont réduits par l'élimination des dites informations personnelles identifiables (PII), un ensemble de données, mais de toute évidence très insuffisant. Pour des entreprises comme Google, qui stockent des données indéfiniment après son «anonymat», les implications sont importantes car elles stockent réellement des données qui serait parfaitement capable de conduire à l'identification sans ambiguïté, même plus de temps s'est écoulé pour que la période initialement convenue avec ses utilisateurs. Données, la réflexion sur le type d'information que nous traitons aujourd'hui sur le net, couvrant un très large éventail de questions qui donnent le vertige mai, pas nécessairement secret, mais privé à l'identique: données non nécessairement chercher à cacher, mais sur laquelle j'ai une attente certaine de la vie privée. Comme nous partageons plus de données et ils sont enregistrés dans plus d'endroits, la nécessité d'être exquis dans leur isolement protecteur se développe, et on s'attend à des baisses de confidentialité, sans avoir l'air d'être pas de solution simple: augmenter les exigences juridiques dans l'entrepôt l'information conduit à les rendre inutiles. Un signe des temps? Démission? "Générations? «La métaphore du petit village? Certes, quelque chose dont les conséquences nous n'avons pas assez réfléchi pour le moment.


Font