Optimisation de l'utilité des données lors d'un processus de k-anonymisation

06 déc 2021

Clémence Mauger soutiendra sa soutenance de thèse intitulée le lundi 6 décembre à 10h devant le jury composé de :

M. Michaël Krajecki, Professeur, URCA - Président du jury
Mme Maryline Laurent, Professeur, Telecom SudParis - Rapporteur
M. Benjamin Nguyen, Professeur, INSA Centre Val de Loire - Rapporteur
Mme Claire Delaplace, Maître de Conférences, UPJV - Examinateur
M. Mathieu Cunche, Maître de Conférences HDR, INSA Lyon - Examinateur
M. Gilles Dequen, Professeur, UPJV - Directeur de thèse
M. Gaël Le Mahec, Maître de Conférences, UPJV - Co-encadrant

Résumé de la thèse

Pour donner des garanties de protection de la vie privée aux bases de données anonymisées, des modèles d’anonymisation ont vu le jour ces dernières décennies. Parmi ceux-ci, on peut citer la k-anonymité, la l-diversité, la t-proximité ou encore la confidentialité diérentielle.

Dans cette thèse, je me suis intéressée au modèle de k-anonymité à travers une analyse approfondie des manières de produire des bases remplissant ces critères de confidentialité tout en optimisant l’utilité des données. Partant d’une base de données, on peut en effet construire plusieurs versions k-anonymes de cette base. Certaines de ces versions k-anonymes comportent moins de modifications des données que les autres et maintiennent ainsi une meilleure utilité des données lors de leur publication. Mes travaux proposent une étude de l’optimisation de l’utilité des données lors du processus de k-anonymisation d’une base.
Dans un premier temps, j’ai étudié des métriques de perte d’information permettant d’estimer la quantité d’information perdue dans une table lors d’un processus de k-anonymisation. Les métriques ont été utilisées dans un algorithme de k-anonymisation pour guider les fusions de classes d’équivalence menant à la production d’une table k-anonyme. J’ai tâché de dégager de cette étude des caractéristiques dans les définitions des métriques de perte d’information permettant de produire des tables k-anonymes de bonne qualité au regard de plusieurs critères.

Dans un second temps, je me suis intéressée à la répartition des données sensibles dans les tables k-anonymes grâce aux modèles de l-diversité et de t-proximité. Plus précisément, j’ai proposé des stratégies d’optimisation mêlant métrique de perte d’information, l-diversité et t-proximité à utiliser dans un algorithme de k-anonymisation. L’objectif a été de maintenir de bons niveaux de l-diversité et de t-proximité dans les tables k-anonymes produites sans sacrifier l’utilité des données.

Dans un troisième temps, je suis revenue sur la formulation du problème de k-anonymisation d’une table. Je me suis appuyée sur une nouvelle notion, les groupes de généralisation, pour énoncer le problème de k-anonymisation d’une table en fonction de la matrice d’incidence d’un hypergraphe. Grâce à cette nouvelle représentation, j’ai proposé une procédure ainsi que cinq algorithmes permettant de construire une table k-anonyme par partitionnement des classes d’équivalence d’une table k'-anonyme avec k' > k. Des expérimentations menées sur deux tables publiques ont montré que les algorithmes proposés surpassent les performances de l’algorithme de k-anonymisation utilisé précédemment en termes de préservation d’information.

Réseaux et Données - REDO

Optimisation et Cryptographie, IA - OCIA