Soutenances de thèse

Contributions à la sélection bayésienne des modèles de mélange finis et infinis avec une application au calcul distribué

10/11/2023 à 14h00

M. Adrien HAIRAULT présente ses travaux en soutenance le 10/11/2023 à 14h00

À l'adresse suivante : Université Paris Dauphine PSL Place du Maréchal de Lattre de Tassigny 75016 Paris Salle des thèse - D520

En vue de l'obtention du diplôme : Doctorat en Sciences

La soutenance est publique

Titre des travaux

Contributions à la sélection bayésienne des modèles de mélange finis et infinis avec une application au calcul distribué

École doctorale

École doctorale Dauphine SDOSE

Équipe de recherche

UMR 7534 - Centre de Recherche en Mathématiques de la Décision

Section CNU

26 - Mathématiques appliquées et applications des mathématiques

Directeur(s)

M. Christian ROBERT et Mme Judith ROUSSEAU

Membres du jury

Nom Qualité Établissement Rôle
M. Christian ROBERT Professeur des universités UNIVERSITE PARIS DAUPHINE - PSL Directeur de thèse
Mme Judith ROUSSEAU Professeur des universités UNIVERSITE PARIS DAUPHINE - PSL Directrice de thèse
M. François CARON Associate professor University of Oxford Rapporteur
Mme Anne PHILIPPE Professeur des universités Université de Nantes Rapporteure
M. Robin RYDER Maître de conférences UNIVERSITE PARIS DAUPHINE - PSL Examinateur
M. Pierre JACOB Professeur Essec Business School Examinateur

Résumé

Ce travail vise à développer de nouveaux outils et procédures pour le problème de la sélection de modèle bayésienne pour les modèles de mélanges. Le facteur de Bayes, défini comme le rapport des vraisemblances marginales calculées pour deux modèles concurrents, est connu pour être consistent dans la plupart des situations. En pratique, l'estimation de la vraisemblance marginale des mélanges finis est une tâche complexe et s'accompagne généralement d'un coût computationnel d'ordre K!, où K est le nombre de composantes du mélange. Nous passons en revue les estimateurs les plus populaires de la vraisemblance marginale pour les mélanges finis et proposons deux méthodes alternatives plus robustes à une augmentation de K et de n, le nombre d'observations. Nous nous intéressons également au modèle de mélange de processus de Dirichlet (DPM) et proposons des estimateurs fiables de la vraisemblance marginale pour de tels modèles non paramétriques. Une application immédiate est la mise en place de tests d'adéquation dans lesquels l'adéquation d'un modèle paramétrique est évaluée par rapport à celle d'une alternative non paramétrique, incarnée par le DPM. Nous montrons que cette procédure est valide en prouvant que le facteur de Bayes est consistent dans ce cadre. Enfin, nous examinons la question de l'estimation distribuée de la vraisemblance marginale pour les mélanges finis, qui reste largement inexplorée jusqu'à présent. Comme c'est généralement le cas avec les mélanges, la plupart des difficultés découlent du manque d'identifiabilité dans l'étiquetage des clusters qu'ils induisent. En utilisant le cadre du Monte Carlo séquentiel, nous développons une méthode robuste qui accélère considérablement le calcul de la vraisemblance marginale en permettant l'échantillonnage selon la loi a posteriori en parallèle.

Toutes les soutenances de thèse