Apprentissage sur Données Tabulaires : Régularisation Structurelle, des Réseaux de Neurones à Petits Échantillons au Clustering en Haute Dimension
01/04/2026 à 14h00
M. Bruno BELUCCI TEIXEIRA présente ses travaux en soutenance le 01/04/2026 à 14h00
À l'adresse suivante : Université Paris Dauphine-PSL, Pl. du Maréchal de Lattre de Tassigny, 75016 Paris Salle des thèses - D520
En vue de l'obtention du diplôme : Doctorat en Sciences
La soutenance est publique
Titre des travaux
Apprentissage sur Données Tabulaires : Régularisation Structurelle, des Réseaux de Neurones à Petits Échantillons au Clustering en Haute Dimension
École doctorale
École doctorale Dauphine SDOSE
Équipe de recherche
UMR 7534 - Centre de Recherche en Mathématiques de la Décision
Section CNU
1 - Mathematiques et leurs interactions
Directeur(s)
Vincent RIVOIRARD
Membres du jury
| Nom | Qualité | Établissement | Rôle |
|---|---|---|---|
| M. Christophe DENIS | Professeur des universités | UNIVERSITÉ PARIS 1 PANTHÉON-SORBONNE | Rapporteur |
| M. Mohamed HEBIRI | Maître de conférences | UNIVERSITÉ PARIS-EST MARNE-LA-VALLÉE | Rapporteur |
| Mme Katia MEZIANI | Maître de conférences | UNIVERSITÉ PARIS DAUPHINE - PSL | Co-encadrant de these |
| M. Karim LOUNICI | Professeur | ÉCOLE POLYTECHNIQUE | Directeur de these |
| M. El Mahdi EL MHAMDI | Maître de conférences | ÉCOLE POLYTECHNIQUE | Examinateur |
| Mme Patricia REYNAUD-BOURET | Directeur de recherche | UNIVERSITÉ CÔTE D'AZUR | Examinateur |
| Mme Madalina OLTEANU | Professeur des universités | UNIVERSITÉ PARIS DAUPHINE - PSL | Examinateur |
| M. Vincent RIVOIRARD | Professeur des universités | UNIVERSITÉ PARIS DAUPHINE - PSL | Directeur de these |
Résumé
Cette thèse étudie l'apprentissage sur données tabulaires dans des régimes difficiles : régression en petit échantillon avec réseaux de neurones et regroupement en grande dimension. Nous proposons une synthèse structurée des fondements théoriques des méthodes supervisées et non supervisées actuelles, ainsi qu'un vaste benchmark empirique comparant modèles statistiques classiques, arbres de décision boostés et réseaux de neurones sur des tâches tabulaires variées. Nous introduisons ensuite AdaCap, une technique de régularisation qui adapte la capacité des réseaux de neurones pour améliorer leurs performances en situation de faible quantité de données. Pour l'apprentissage non supervisé, nous présentons CoHiRF, un méta-algorithme qui étend les méthodes de clustering à la grande dimension et fournit des représentations hiérarchiques interprétables, puis VertCoHiRF, qui transpose cette approche à l'apprentissage fédéré vertical pour un regroupement décentralisé et confidentiel, fondé sur un consensus structurel entre parties. Ces contributions font progresser des méthodes d'apprentissage scalables, interprétables et robustes pour les données tabulaires, en environnements centralisés et fédérés.