Quantification de l'anonymat dans les bases de données

Werner, Jolan; Romainville, Sandrine

Files

Werner_58831100_Romainville_66051200.pdf

Open access
Adobe PDF
4.57 MB

Download

Details

Supervisors: Standaert, François-Xavier ; Blondel, Vincent
Faculty: Ecole polytechnique de Louvain
Degree label: Master [120] : ingénieur civil en mathématiques appliquées
Abstract: Avec le nombre grandissant de bases de données contenant maintes informations sur maints individus, les questions de la vie privée et de l'anonymat reviennent souvent aujourd'hui. Les firmes doivent d'ailleurs de plus en plus répondre à des critères visant à garder une certaine sécurité, un certain anonymat dans leurs bases de données. Il semble donc nécessaire d'avoir une estimation de l'information disponible au travers de ces données, notamment au travers de celles concernant la localisation. Pour ce faire nous utiliserons les métriques de l'information perçue et du taux de succès nous permettant de quantifier le niveau de location privacy via la caractérisation des utilisateurs. Nous tenterons de répondre à la question de savoir combien de données sur les utilisateurs sont nécessaires pour pouvoir en faire une bonne caractérisation et à quel point cette caractérisation permet d'identifier l'utilisateur qui a généré les données. Ces quantificateurs se servant de probabilités à posteriori, nous pourrons comparer plusieurs outils permettant d'en obtenir, à savoir le modèle par noyau, le modèle discret et celui par maximisation d'espérance ainsi que des méthodes permettant d'obtenir directement des pseudo-probabilités, telles que la méthode des K plus proches voisins et celle des arbres des décision. Différentes techniques de défense telles que l'agrégation de l'espace et le bruitage de données seront également testées afin d'essayer d'augmenter la location privacy. Les données utilisées seront premièrement des données simulées d'utilisateurs se trouvant dans l'espace à $2$ dimensions et deuxièmement des données réelles d'utilisateurs présents sur la côte Est des Etats-Unis. Les résultats montrent que tous les outils d'analyse que nous considérons comme méthode d'attaque donnent une information perçue élevée dans les données simulées et surtout que le taux de succès atteint est très souvent maximal. Les données réelles n'offriront pas plus de location privacy et les résultats obtenus sur celles-ci semblent rester aussi convaincants que ceux des données simulées. Les moyens de défense permettent toutefois d'augmenter ce niveau de location privacy mais pas de façon miraculeuse à moins bien sûr d'altérer énormément les données. Au vu de ces résultats il semble évident que la réponse à notre question est malheureusement celle redoutée: oui, les données permettent bien trop facilement à un attaquant quelconque d'obtenir des informations privées quant aux individus se retrouvant dans une base de données de géolocalisation.

ATTENTION/WARNING - NE PAS DÉPOSER ICI/DO NOT SUBMIT HERE

Quantification de l'anonymat dans les bases de données

Files

Werner_58831100_Romainville_66051200.pdf

Details