Apprentissage sous contraintes de confidentialité : compromis confidentialité–utilité pour les modèles génératifs et les méthodes d'optimisation différentiellement privées
20/03/2026 à 14h00
Mme Ilana SEBAG présente ses travaux en soutenance le 20/03/2026 à 14h00
À l'adresse suivante : PariSanté Campus 10 Rue d'Oradour-sur-Glane, 75015 Paris Auditorium
En vue de l'obtention du diplôme : Doctorat en Informatique
La soutenance est publique
Titre des travaux
Apprentissage sous contraintes de confidentialité : compromis confidentialité–utilité pour les modèles génératifs et les méthodes d'optimisation différentiellement privées
École doctorale
École doctorale Dauphine SDOSE
Équipe de recherche
UMR 7243 - Laboratoire d'Analyse et de Modélisation de Systèmes d'Aide à la Décision
Section CNU
Directeur(s)
Alexandre ALLAUZEN
Membres du jury
| Nom | Qualité | Établissement | Rôle |
|---|---|---|---|
| M. Alexandre ALLAUZEN | Professeur | Dauphine-PSL | Directeur de these |
| Mme Elisa FROMONT | Professeur | Université de Rennes | Rapporteur |
| M. Cédric GOUY-PAILLER | Ingénieur de recherche | CEA | Rapporteur |
| M. Clément LALANNE | Assistant professor | Université de Toulouse | Examinateur |
| M. Marc TOMMASI | Professeur | Université de Lille | Examinateur |
| M. Jean-Yves FRANCESCHI | Chargé de recherche | Criteo | Co-encadrant de these |
| M. Alain RAKOTOMAMONJY | Professeur | Criteo | Co-encadrant de these |
Résumé
Les progrès récents de l'intelligence artificielle reposent en grande partie sur l'accès à de grandes quantités de données, et les modèles génératifs occupent aujourd'hui une place centrale pour apprendre et reproduire des distributions complexes. Dans de nombreux contextes concrets, ces données sont sensibles, ce qui rend la question de la confidentialité particulièrement critique pour les modèles génératifs. La confidentialité différentielle fournit un cadre théorique pour limiter l'influence de chaque donnée individuelle, mais ses interactions avec les dynamiques d'optimisation, la géométrie de l'apprentissage et les architectures modernes restent encore mal comprises.
Cette thèse adopte une double perspective sur l'apprentissage à partir de données privées, en combinant la conception d'algorithmes d'apprentissage différentiellement privés, du point de vue du défenseur, et l'analyse des fuites de confidentialité à travers des inférences adversariales, du point de vue de l'attaquant. Ces questions sont étudiées à travers le prisme de la géométrie de l'optimisation et des dynamiques d'apprentissage, dans des contextes supervisés et génératifs. Nous analysons comment la structure des fonctions objectif et des procédures d'optimisation influence à la fois les garanties de confidentialité et les fuites mises en évidence par des attaques d'inférence d'appartenance.
La première partie de la thèse propose une approche non paramétrique de la modélisation générative différentiellement privée, fondée sur des flots de gradient dans l'espace des mesures de probabilité. En intégrant les mécanismes de confidentialité directement dans la métrique d'apprentissage à l'aide de distances de Wasserstein tranchées lissées par un noyau gaussien, nous développons un cadre en temps continu qui s'écarte de l'optimisation classique en espace des paramètres basée sur DP-SGD. Nous analysons les propriétés de convergence et de stabilité de ces flots, et montrons comment leur discrétisation permet d'obtenir des algorithmes génératifs privés exploitables en pratique.
La deuxième partie s'intéresse à la régression linéaire différentiellement privée en présence de données publiques auxiliaires soumises à un décalage de distribution. Nous introduisons un cadre de descente miroir dans lequel les données publiques façonnent la géométrie de l'optimisation, tandis que la confidentialité est garantie vis-à-vis des données privées. Cette formulation permet une analyse fine du compromis entre confidentialité et utilité selon l'ampleur du décalage de distribution.
Enfin, la dernière partie de la thèse étudie les fuites de confidentialité dans les modèles génératifs différentiellement privés à l'aide d'attaques d'inférence d'appartenance. Nous développons un cadre théorique fondé sur la stabilité de l'apprentissage afin de comparer les modèles adversariaux et les modèles de diffusion entraînés avec DP-SGD. Cette analyse montre que certaines caractéristiques propres aux modèles de diffusion conduisent à des garanties de stabilité plus faibles. Ces résultats sont confirmés par une évaluation empirique reposant sur des attaques de type rapport de vraisemblance à l'état de l'art.
Dans l'ensemble, cette thèse contribue à une meilleure compréhension de l'apprentissage respectueux de la vie privée en analysant le rôle conjoint de la géométrie de l'optimisation, des dynamiques d'apprentissage et de la structure des modèles. Elle met en évidence l'intérêt de la stabilité algorithmique pour relier la confidentialité différentielle aux risques d'inférence d'appartenance.