Étude statistique de l’analyse en composantes principales fonctionnelle dans les cadres uni et multivarié
10/06/2022 à 13h00
M. Ryad Mohammed BELHAKEM présente ses travaux en soutenance le 10/06/2022 à 13h00
À l'adresse suivante : Université Paris-Dauphine Pl. du Maréchal de Lattre de Tassigny, 75016 Paris - Salle des thèses - D520
En vue de l'obtention du diplôme : Doctorat en Sciences
La soutenance est publique
Titre des travaux
Étude statistique de l’analyse en composantes principales fonctionnelle dans les cadres uni et multivarié
École doctorale
École doctorale Dauphine SDOSE
Équipe de recherche
UMR 7534 - Centre de Recherche en Mathématiques de la Décision
Section CNU
26 - Mathématiques appliquées et applications des mathématiques Unité de recherche
Directeur(s)
Monsieur Vincent RIVOIRARD et Monsieur Franck PICARD
Membres du jury
Nom | Qualité | Établissement | Rôle |
---|---|---|---|
M. Vincent RIVOIRARD | Professeur des universités | UNIVERSITE PARIS DAUPHINE - PSL | Co-directeur de thèse |
M. Franck PICARD | Directeur de recherche | Ecole normale supérieur de Lyon | Co-directeur de thèse |
Mme Angelina ROCHE | Maître de conférences | UNIVERSITE PARIS DAUPHINE - PSL | Co-encadrante de thèse |
Mme Sophie DABO | Professeur des universités | Université de Lille | Examinatrice |
Mme Irène GIJBELS | Professeur | Katholieke Universiteit Leuven | Rapporteure |
M. Hervé CARDOT | Professeur des universités | Université Bourgogne Franche-Comté | Rapporteur |
M. André MAS | Professeur des universités | Université de Montpellier | Examinateur |
Résumé
Ce travail est la concaténation de deux parties, ayant pour point comment de porter sur l'analyse de données fonctionnelle et en particulier de s'intéresser aux questions liées à la grande dimension dans ce contexte. La première partie concerne l'analyse en composante principale fonctionnelle dans le cas univarié. Notre approche vise à donner des résultats non-asymptotiques pour différents estimateurs de projection des éléments propres d'un opérateur de covariance. Nous définissons d'abord un estimateur basé sur un opérateur de projection. Cet opérateur peut être vu comme une étape de reconstruction des données brutes dans le contexte de l'analyse des données fonctionnelles. Nous montrons que l'estimateur naïf, qui calcule les éléments propres sans régularisation après l'étape de projection, est optimal au sens minimax pour un bon choix de base. À cette fin, nous établissons à la fois une limite inférieure et supérieure sur l'erreur quadratique moyenne de reconstruction des éléments propres. Nous prouvons également des résultats généraux pour les bases générales de Lipschitz et de Daubechies qui n'atteignent pas les vitesses minimax. Dans le cas de Daubechies, un seuillage est nécessaire pour atteindre son taux optimal. Cette partie est conclue par des simulations numériques qui confirment l'acuité de l'approche et une application à des données génomique. La seconde partie concerne la généralisation du modèle au cas fonctionnelle multivarié. Comme en première partie notre approche vise à donner des résultats non-asymptotiques pour l'estimation de la première composante principale d'un processus aléatoire multivarié. Nous définissons d'abord la fonction de covariance et l'opérateur de covariance dans le cas multivarié. On définit alors un opérateur de projection. Cet opérateur peut être vu comme une étape de reconstruction à partir des données brutes dans le contexte d'analyse de données fonctionnelles. Ensuite, nous montrons que les éléments propres peuvent être exprimés comme la solution d'un problème d'optimisation, et nous introduisons la variante LASSO de ce problème d'optimisation et l'estimateur de plugin associé. Enfin, nous évaluons la précision de l'estimateur. Nous établissons une borne inférieure minimax sur l'erreur quadratique moyenne de reconstruction de l'élément propre, ce qui prouve que la procédure a une variance optimale au sens minimax.