Quelques contributions aux méthodes computationnelles bayesiennes, avec applications à la phylolinguistique
06/10/2021 à 17h00
M. Grégoire CLARTÉ présente ses travaux en soutenance le 06/10/2021 à 17h00
À l'adresse suivante : Place du Maréchal de Lattre de Tassigny, 75016 Paris - Salle des thèses, D520
En vue de l'obtention du diplôme : Doctorat en Sciences
La soutenance est publique
Titre des travaux
Quelques contributions aux méthodes computationnelles bayesiennes, avec applications à la phylolinguistique
École doctorale
École doctorale Dauphine SDOSE
Équipe de recherche
UMR 7534 - Centre de Recherche en Mathématiques de la Décision
Section CNU
26 - Mathématiques appliquées et applications des mathématiques
Directeur(s)
M. Christian ROBERT
Membres du jury
Nom | Qualité | Établissement | Rôle |
---|---|---|---|
M. Christian ROBERT | Professeur des universités | UNIVERSITE PARIS DAUPHINE - PSL | Directeur de thèse |
Mme Antonietta MIRA | Professeur des universités | Università della Svizzera Italiana, Università dell'Insubria | Rapporteure |
M. Alexandre BOUCHARD-CôTé | Associate professor | University of British Columbia | Rapporteur |
M. Robin RYDER | Maître de conférences | Université Paris Dauphine, PSL | Examinateur |
M. Geoff NICHOLLS | Professeur | University of Oxford | Examinateur |
Mme Judith ROUSSEAU | Professeur | University of Oxford | Examinatrice |
M. Pierre JACOB | Professeur | ESSEC Business School | Examinateur |
Résumé
Ce travail est la concaténation de trois parties, ayant pour point commun de porter sur les statistiques bayesiennes. La première partie concerne les méthodes bayesiennes d'inférence de phylogénies, avec une application à l'histoire des langues des Signes. Nous dévelopons un modèle pour des données matricielles, dont lignes et colonnes sont corrélées ; ces données peuvent représenter des traits socio-culturels, phénotypiques, ou, comme dans notre cas, des données lexicales. Nous montrons comment calculer la vraisemblance de ce modèle et proposons des méthodes numériques pour échantillonner depuis le posterior associé, basées sur un Monte Carlo sequentiel associé à un tempering exotique. Les résultats sur données simulées sont plus que satisfaisants, tandis que les résultats sur données réelles apportent des éléments de réponses aux questions des linguistes. La deuxième partie traite des méthodes bayésiennes approchées. Ces méthodes s'utilisent lorsque les vraisemblances sont intractables, elles sont, hélas, particulièrement sensibles au fléau de la dimension, requerrant des ressources exponentiellement élevées à mesure que la dimension croit. Pour résoudre ce problème, nous explorons une version à la Gibbs des méthodes ABC traditionnelles, où l'on met à jour sequentiellement les coordonnées des paramètres selon des lois conditionnelles approchées reposant sur des statistiques résumées de dimension moindre. Bien qu'il ne soit pas possible d'utiliser des méthodes classiques pour étudier cette méthode, nous avons été capables de montrer sa convergence vers une mesure stationnaire dépourvue de forme explicite. Les expériences démontrent une efficacité particulière parrapport aux méthodes standard. La troisième partie est dédiée aux méthodes numériques particulaires. Au cours des dernières décénies, des méthodes MCMC non linéaires ont été dévelopées ; bien qu'attirantes par leur vitesse de convergence et leur efficacité, leur implémentation et étude théorique reste problématique. Nous introduisons une large classe de méthodes non linéaires qu'il est possible d'étudier à l'aide de limites champ-moyen de particules en interaction. L'implémentation que l'on propose repose sur le calcul parallèle sur GPU.