Soutenances de thèse

Inférence statistique sur des variétés inconnues

20/09/2022 à 14h00

M. Clément BERENFELD présente ses travaux en soutenance le 20/09/2022 à 14h00

À l'adresse suivante : Université Paris-Dauphine Place du Maréchal de Lattre de Tassigny 75016 Paris - Salle des thèses - D520

En vue de l'obtention du diplôme : Doctorat en Sciences

La soutenance est publique

Titre des travaux

Inférence statistique sur des variétés inconnues

École doctorale

École doctorale Dauphine SDOSE

Équipe de recherche

UMR 7534 - Centre de Recherche en Mathématiques de la Décision

Section CNU

26 - Mathématiques appliquées et applications des mathématiques

Directeur(s)

M. Marc HOFFMANN

Membres du jury

Nom Qualité Établissement Rôle
M. Marc HOFFMANN Professeur UNIVERSITE PARIS DAUPHINE - PSL Directeur de thèse
M. Frédéric CHAZAL Directeur de recherche INRIA Saclay Rapporteur
M. Richard NICKL Professor University of Cambridge Rapporteur
Mme Catherine AARON Maître de conférences Université Clermont-Auvergne Examinatrice
Mme Elisabeth GASSIAT Professeur des universités Université Paris-Saclay Examinatrice
M. Vincent RIVOIRARD Professeur des universités UNIVERSITE PARIS DAUPHINE - PSL Examinateur
Mme Judith ROUSSEAU Professeur University of Oxford Examinatrice

Résumé

En statistique, l’hypothèse des variétés suppose que les données observées se répartissent autour de structures de faible dimension, appelées variétés. Ce postulat permet d’expliquer pourquoi les algorithmes d’apprentissage fonctionnent bien même sur des données en grande dimension, et est naturellement satisfait pour de nombreux jeux de données issus de la vie réelle. Nous présentons dans cette thèse quelques contributions aux problèmes d’estimation de deux quantités sous cette hypothèse : la densité de la distribution sous-jacente, et le reach de son support. Pour l’estimation du reach, nous élaborons des stratégies basées sur des invariants géométriques, avec d’une part la fonction de défaut de convexité, et d’autre part, des mesures de distortion métrique, desquels nous obtenons des vitesses de convergence optimales au sens minimax. Concernant l’estimation de la densité, nous proposons deux approches : l’une s’appuyant sur l’étude fréquentiste d’un estimateur à noyaux, et une approche bayésienne non-paramétrique se reposant sur des mélanges de gaussiennes. Nous montrons que ces deux méthodes sont optimales et adaptatives en la régularité de la densité. Enfin, nous examinons le comportement de certaines mesures de centralité dans des graphes aléatoires géométriques, l’étude duquel, bien que sans lien avec l’hypothèse des variétés, a des implications méthodologiques et théoriques qui peuvent être intéressantes dans tout cadre statistique.

Toutes les soutenances de thèse