Inférence statistique sur des variétés inconnues
20/09/2022 à 14h00
M. Clément BERENFELD présente ses travaux en soutenance le 20/09/2022 à 14h00
À l'adresse suivante : Université Paris-Dauphine Place du Maréchal de Lattre de Tassigny 75016 Paris - Salle des thèses - D520
En vue de l'obtention du diplôme : Doctorat en Sciences
La soutenance est publique
Titre des travaux
Inférence statistique sur des variétés inconnues
École doctorale
École doctorale Dauphine SDOSE
Équipe de recherche
UMR 7534 - Centre de Recherche en Mathématiques de la Décision
Section CNU
26 - Mathématiques appliquées et applications des mathématiques
Directeur(s)
M. Marc HOFFMANN
Membres du jury
Nom | Qualité | Établissement | Rôle |
---|---|---|---|
M. Marc HOFFMANN | Professeur | UNIVERSITE PARIS DAUPHINE - PSL | Directeur de thèse |
M. Frédéric CHAZAL | Directeur de recherche | INRIA Saclay | Rapporteur |
M. Richard NICKL | Professor | University of Cambridge | Rapporteur |
Mme Catherine AARON | Maître de conférences | Université Clermont-Auvergne | Examinatrice |
Mme Elisabeth GASSIAT | Professeur des universités | Université Paris-Saclay | Examinatrice |
M. Vincent RIVOIRARD | Professeur des universités | UNIVERSITE PARIS DAUPHINE - PSL | Examinateur |
Mme Judith ROUSSEAU | Professeur | University of Oxford | Examinatrice |
Résumé
En statistique, l’hypothèse des variétés suppose que les données observées se répartissent autour de structures de faible dimension, appelées variétés. Ce postulat permet d’expliquer pourquoi les algorithmes d’apprentissage fonctionnent bien même sur des données en grande dimension, et est naturellement satisfait pour de nombreux jeux de données issus de la vie réelle. Nous présentons dans cette thèse quelques contributions aux problèmes d’estimation de deux quantités sous cette hypothèse : la densité de la distribution sous-jacente, et le reach de son support. Pour l’estimation du reach, nous élaborons des stratégies basées sur des invariants géométriques, avec d’une part la fonction de défaut de convexité, et d’autre part, des mesures de distortion métrique, desquels nous obtenons des vitesses de convergence optimales au sens minimax. Concernant l’estimation de la densité, nous proposons deux approches : l’une s’appuyant sur l’étude fréquentiste d’un estimateur à noyaux, et une approche bayésienne non-paramétrique se reposant sur des mélanges de gaussiennes. Nous montrons que ces deux méthodes sont optimales et adaptatives en la régularité de la densité. Enfin, nous examinons le comportement de certaines mesures de centralité dans des graphes aléatoires géométriques, l’étude duquel, bien que sans lien avec l’hypothèse des variétés, a des implications méthodologiques et théoriques qui peuvent être intéressantes dans tout cadre statistique.