Soutenances de thèse

Explorer la qualité et la diversité des modèles génératifs

01/07/2024 à 14h00

M. Alexandre VERINE présente ses travaux en soutenance le 01/07/2024 à 14h00

À l'adresse suivante : PariSanté Campus - 2 - 10 Rue d'Oradour-sur-Glane, 75015 Paris - Salle Auditorium

En vue de l'obtention du diplôme : Doctorat en Informatique

La soutenance est publique

Titre des travaux

Explorer la qualité et la diversité des modèles génératifs

École doctorale

École doctorale Dauphine SDOSE

Équipe de recherche

UMR 7243 - Laboratoire d’Analyse et de Modélisation de Systèmes d’Aide à la Décision

Section CNU

27 - Informatique

Directeur(s)

M. Yann CHEVALEYRE et M. Fabrice ROSSI

Membres du jury

Nom Qualité Établissement Rôle
M. Yann CHEVALEYRE Professeur des universités UNIVERSITE PARIS DAUPHINE - PSL Directeur de thèse
M. Fabrice ROSSI Professeur des universités Université Paris-Dauphine - PSL Co-directeur de thèse
M. Benjamin NEGREVERGNE Maître de conférences Université Paris-Dauphine - PSL Co-encadrant de thèse
M. Richard NOCK Professeur des universités Australian National University Rapporteur
M. David PICARD Maître de conférences École des Ponts ParisTech Rapporteur
M. Guillaume CHARPIAT Chargé de recherche INRIA Saclay Examinateur
Mme Michèle SEBAG Professeur émérite Université Paris Saclay Examinatrice
M. Olivier CAPPE Directeur de recherche CNRS École normale supérieure Examinateur

Résumé

Les modèles génératifs sont devenus un outil essentiel dans l'apprentissage automatique pour générer des échantillons réalistes à partir de distributions de données complexes. Malgré des avancées significatives dans les modèles tels que les Generative Adversarial Network, les Variational Autoencoders, les Normalizing Flows et les modèles de diffusion, des défis persistent pour régler le compromis entre la qualité et la diversité des échantillons. Cette thèse aborde le problème fondamental de la caractérisation, l'ajustemtn et de l'amélioration de la qualité et de la diversité dans les modèles génératifs. La précision et le rappel ont émergé comme des métriques cruciales pour évaluer la qualité et la diversité des modèles génératifs. La précision mesure combien d'échantillons générés sont réalistes avec la distribution de données réelle, reflétant la qualité des échantillons. Le rappel évalue combien d'échantillons de la distribution de données réelle peuvent être générés, indiquant la diversité des échantillons. La première contribution majeure de ce travail est l'unification des définitions de la précision et du rappel dans le cadre des $f$-divergences. En exprimant les métriques les plus populaires et leurs dérivés en tant qu'un famille de $f$-Divergnce, la PR-Divergence, nous établissons un système d'évaluation cohérent et complet pour les modèles génératifs. Cette formulation théorique permet une compréhension plus claire et une mesure plus précise des performances des modèles en termes de qualité et de diversité. En s'appuyant sur cette base théorique, la thèse introduit une méthode novatrice pour estimer la PR-Divergnce de manière differentiable, facilitant son utilisation comme fonction objective dans la formation des modèles génératifs. Cette approche permet d'optimiser n'importe quel compromis spécifique entre précision et rappel. Cette méthode se montre complémentaire aux méthodes existantes. De plus, la thèse propose une méthode optimale d'échantillonnage par rejet qui améliore à la fois la précision et le rappel. Cette méthode est démontrée comme étant optimale en termes de toute $f$-divergence, fournissant une technique robuste pour affiner les sorties des modèles génératifs pré-entraînés. L'algorithme d'échantillonnage par rejet est conçu pour fonctionner sous des budgets computationnels limités, le rendant pratique pour des applications réelles. La validation expérimentale des méthodes proposées est réalisée sur une variété de jeux de données, incluant MNIST, CIFAR-10, Fashion MNIST, CelebA, FFHQ et ImageNet. En utilisant les Normalizing Flows, les Generative Adversarial Networks et les modèles de diffusion, nous démontrons l'efficacité de nos approches pour ajuster le compromis entre la qualité et la diversité des échantillons générés, puis pour améliorer la qualité. Les résultats soulignent la supériorité de nos méthodes par rapport aux métriques traditionnelles et aux techniques existantes.

Toutes les soutenances de thèse