Géométrie dans les modèles génératifs
18/12/2024 à 12h15
M.Changqing FU présente ses travaux en soutenance le 18/12/2024 à 12h15
À l'adresse suivante : Université Paris-Dauphine, Place du Maréchal de Lattre de Tassigny, 75016 Paris, Salle D304
En vue de l'obtention du diplôme : Doctorat en Sciences
La soutenance est publique
Titre des travaux
Géométrie dans les modèles génératifs
École doctorale
École doctorale Dauphine SDOSE
Équipe de recherche
UMR 7534 - Centre de Recherche en Mathématiques de la Décision
Section CNU
26 - Mathématiques appliquées et applications des mathématiques
Directeur(s)
M. Laurent COHEN
Membres du jury
Nom | Qualité | Établissement | Rôle |
---|---|---|---|
M. Laurent COHEN | Directeur de recherche | UNIVERSITE PARIS DAUPHINE - PSL | Directeur de thèse |
M. Lei SHI | Full professor | Fudan University | Rapporteur |
M. Qiang WU | Full professor | University of Tennessee | Rapporteur |
M. Jamal ATIF | Professeur des universités | UNIVERSITE PARIS DAUPHINE - PSL | Examinateur |
M. Guillaume CHARPIAT | Chargé de recherche | Université Paris-Saclay - INRIA | Examinateur |
Mme Laurence LIKFORMAN-SULEM | Associate professor | Institut Polytechnique de Paris | Examinatrice |
Résumé
Les modèles d'apprentissage profond manquent souvent de bases théoriques. Dans cette thèse, à partir des principes du traitement du signal et de la mécanique classique, nous nous attaquons au problème suivant : comment incorporer la géométrie dans les modèles génératifs. En soulevant de nouvelles hypothèses selon lesquelles les états cachés profonds ont des structures topologiques continues et des structures algébriques symétriques, les modèles génératifs sont reliés aux théories standard de manière directe, avec des performances et une efficacité améliorées. La thèse aborde cette question sous trois aspects : au niveau de la tâche, au niveau de l'apprentissage et au niveau du modèle. Les bases des modèles génératifs sont introduites dans le chapitre 1, où nous énonçons les principes, établissons les notations et passons en revue les méthodes de base. Ensuite, au chapitre 2, au niveau de la tâche, nous étudions un problème d'édition d'image interactive basée sur les contours. Une approche en deux étapes est proposée pour augmenter la robustesse du modèle, impliquant une translation du contour à l'image et une reconstruction multi-échelle non supervisée. Au chapitre 3, au niveau de l'apprentissage, nous discutons d'une perte perceptuelle améliorée qui renvoie au principe de moindre action. Nous défendons l'idée qu'il existe une représentation unifiée régissant différentes lignes de modèles génératifs et nous formulons des opérateurs projectifs pour unifier les différents opérateurs d'un modèle. Enfin, dans les chapitres 4 et 5, au niveau du modèle, nous proposons des applications de la topologie et de la théorie des groupes dans les structures des modèles génératifs. Une large gamme de modèles est améliorée, y compris les UNet convolutifs / les transformateurs dans les modèles de diffusion / les réseaux adversaires génératifs. Les avantages pratiques sont la réduction des paramètres ou l'augmentation de l'efficacité. Le chapitre 5 propose un modèle génératif léger. L'idée est d'aller plus loin que les réseaux neuronaux convolutifs, qui découlent de l'équivariance de traduction, mais dans l'espace tangent du domaine spatial. Avec l'hypothèse de la continuité des motifs dans les dimensions des caractéristiques, le nombre de paramètres est réduit d'un facteur de 102 à 103, l'efficacité est accrue, tandis que les performances ne sont pas compromises. Au chapitre 4, l'équivariance orthogonale est introduite dans les réseaux neuronaux par une nouvelle fonction d'activation. Un argument de projection conique établit un lien entre le groupe algébrique des fonctions d'activation et la géométrie de leurs ensembles invariants. La restriction dans les réseaux La restriction dans les réseaux neuronaux communs est donc brisée en considérant un ensemble avec une symétrie de rotation, qui partage une similarité avec la fonction d'attention. Les structures sont également bénéfiques pour les réseaux neuronaux généraux, y compris les perceptrons multicouches, les transformateurs de langage et les ResNets de reconnaissance.