Soutenances de thèse

Apprentissage sous contraintes de confidentialité : compromis confidentialité–utilité pour les modèles génératifs et les méthodes d'optimisation différentiellement privées

20/03/2026 à 14h00

Mme Ilana SEBAG présente ses travaux en soutenance le 20/03/2026 à 14h00

À l'adresse suivante : PariSanté Campus 10 Rue d'Oradour-sur-Glane, 75015 Paris Auditorium

En vue de l'obtention du diplôme : Doctorat en Informatique

La soutenance est publique

Titre des travaux

Apprentissage sous contraintes de confidentialité : compromis confidentialité–utilité pour les modèles génératifs et les méthodes d'optimisation différentiellement privées

École doctorale

École doctorale Dauphine SDOSE

Équipe de recherche

UMR 7243 - Laboratoire d'Analyse et de Modélisation de Systèmes d'Aide à la Décision

Section CNU

Directeur(s)

Alexandre ALLAUZEN

Membres du jury

Nom Qualité Établissement Rôle
M. Alexandre ALLAUZEN Professeur Dauphine-PSL Directeur de these
Mme Elisa FROMONT Professeur Université de Rennes Rapporteur
M. Cédric GOUY-PAILLER Ingénieur de recherche CEA Rapporteur
M. Clément LALANNE Assistant professor Université de Toulouse Examinateur
M. Marc TOMMASI Professeur Université de Lille Examinateur
M. Jean-Yves FRANCESCHI Chargé de recherche Criteo Co-encadrant de these
M. Alain RAKOTOMAMONJY Professeur Criteo Co-encadrant de these

Résumé

Les progrès récents de l'intelligence artificielle reposent en grande partie sur l'accès à de grandes quantités de données, et les modèles génératifs occupent aujourd'hui une place centrale pour apprendre et reproduire des distributions complexes. Dans de nombreux contextes concrets, ces données sont sensibles, ce qui rend la question de la confidentialité particulièrement critique pour les modèles génératifs. La confidentialité différentielle fournit un cadre théorique pour limiter l'influence de chaque donnée individuelle, mais ses interactions avec les dynamiques d'optimisation, la géométrie de l'apprentissage et les architectures modernes restent encore mal comprises.

 

Cette thèse adopte une double perspective sur l'apprentissage à partir de données privées, en combinant la conception d'algorithmes d'apprentissage différentiellement privés, du point de vue du défenseur, et l'analyse des fuites de confidentialité à travers des inférences adversariales, du point de vue de l'attaquant. Ces questions sont étudiées à travers le prisme de la géométrie de l'optimisation et des dynamiques d'apprentissage, dans des contextes supervisés et génératifs. Nous analysons comment la structure des fonctions objectif et des procédures d'optimisation influence à la fois les garanties de confidentialité et les fuites mises en évidence par des attaques d'inférence d'appartenance.

 

La première partie de la thèse propose une approche non paramétrique de la modélisation générative différentiellement privée, fondée sur des flots de gradient dans l'espace des mesures de probabilité. En intégrant les mécanismes de confidentialité directement dans la métrique d'apprentissage à l'aide de distances de Wasserstein tranchées lissées par un noyau gaussien, nous développons un cadre en temps continu qui s'écarte de l'optimisation classique en espace des paramètres basée sur DP-SGD. Nous analysons les propriétés de convergence et de stabilité de ces flots, et montrons comment leur discrétisation permet d'obtenir des algorithmes génératifs privés exploitables en pratique.

 

La deuxième partie s'intéresse à la régression linéaire différentiellement privée en présence de données publiques auxiliaires soumises à un décalage de distribution. Nous introduisons un cadre de descente miroir dans lequel les données publiques façonnent la géométrie de l'optimisation, tandis que la confidentialité est garantie vis-à-vis des données privées. Cette formulation permet une analyse fine du compromis entre confidentialité et utilité selon l'ampleur du décalage de distribution.

 

Enfin, la dernière partie de la thèse étudie les fuites de confidentialité dans les modèles génératifs différentiellement privés à l'aide d'attaques d'inférence d'appartenance. Nous développons un cadre théorique fondé sur la stabilité de l'apprentissage afin de comparer les modèles adversariaux et les modèles de diffusion entraînés avec DP-SGD. Cette analyse montre que certaines caractéristiques propres aux modèles de diffusion conduisent à des garanties de stabilité plus faibles. Ces résultats sont confirmés par une évaluation empirique reposant sur des attaques de type rapport de vraisemblance à l'état de l'art.

 

Dans l'ensemble, cette thèse contribue à une meilleure compréhension de l'apprentissage respectueux de la vie privée en analysant le rôle conjoint de la géométrie de l'optimisation, des dynamiques d'apprentissage et de la structure des modèles. Elle met en évidence l'intérêt de la stabilité algorithmique pour relier la confidentialité différentielle aux risques d'inférence d'appartenance.

Toutes les soutenances de thèse