Soutenances de thèse

Contrôle par Limite Diffusive et Apprentissage par Renforcement

08/12/2023 à 14h00

M. Lorenzo CROISSANT présente ses travaux en soutenance le 08/12/2023 à 14h00

À l'adresse suivante : Université Paris Dauphine-PSL Pl. du Maréchal de Lattre de Tassigny, 75016 Paris Salle des Thèses D520

En vue de l'obtention du diplôme : Doctorat en Sciences

La soutenance est publique

Titre des travaux

Contrôle par Limite Diffusive et Apprentissage par Renforcement

École doctorale

École doctorale Dauphine SDOSE

Équipe de recherche

UMR 7534 - Centre de Recherche en Mathématiques de la Décision

Section CNU

26 - Mathématiques appliquées et applications des mathématiques

Directeur(s)

M. Bruno BOUCHARD-DENIZE

Membres du jury

Nom	Qualité	Établissement	Rôle
M. Bruno BOUCHARD-DENIZE	Professeur des universités	UNIVERSITE PARIS DAUPHINE - PSL	Directeur de thèse
M. Jean-François CHASSAGNEUX	Professeur des universités	UNIVERSITÉ PARIS CITÉ	Rapporteur
M. Vianney PERCHET	Professeur des universités	ENSAE	Rapporteur
M. Mathieu ROSENBAUM	Professeur des universités	ÉCOLE POLYTHECHNIQUE	Examinateur
M. Charles-Albert LEHALLE	Global Head - Quantitative Research & Development	ABU DHABI INVESTMENT AUTHORITY	Examinateur
M. Pierre CARDALIAGUET	Professeur des universités	UNIVERSTIÉ PARIS DAUPHINE-PSL	Examinateur
M. Marc HOFFMANN	Professeur des universités	Université Paris Dauphine-PSL	Examinateur
Mme Athena PICARELLI	Associate professor	UNIVERSITÀ DI VERONA	Examinatrice
M. Marc ABEILLE	Staff Researcher	CRITEO	Invité

Résumé

On considère la limite diffusive d'un problème de contrôle Markovien à sauts purs quelconque lorsque l'intensité de son processus de Poisson tend vers l'infini. On quantifie la vitesse de convergence en fonction de l'exposant de H"older de la Hessienne du problème limite. On montre ensuite comment construire des termes de correction pour cette approximation, selon deux méthodologies différentes. Notre analyse couvre le problème à horizon fini, escompté et ergodique. Dans le cas ergodique, on quantifie l'erreur induite par l'utilisation de la politique de contrôle Markovienne construite à partir du schéma numérique de différences finies associé au problème diffusif limite. Cette approche permet une réduction très significative du coût de résolution numérique des problèmes de contrôle à sauts purs lorsque l'intensité des sauts est grande. On s'attache ensuite au problème de l'incertitude dans les systèmes de contrôle, et on étend notre étude au contexte de l'apprentissage par renforcement en ligne. Dans le paradigme de l'optimisme devant l'incertain, on exploite le carcan de la dimension d'eluder pour gérer l'apprentissage et la limite diffusive pour résoudre approximativement le sous-problème de planification. Notre algorithme étend la théorie existante des problèmes discrets aux problèmes avec états et actions continus. L'utilisation d'outils issus de la théorie des processus stochastiques à temps continu nous permet également d'étudier une classe de coefficients plus générique que les travaux précédents. Notre étude des systèmes à limite diffusive est motivée et illustrée par le problème d'enchérir dans une enchère séquentielle à haute fréquence contre un vendeur qui maximise son revenu sous contrainte d'utiliser une règle de mise à jour en temps réel.

Toutes les soutenances de thèse