Soutenances de thèse

Le Deep Reinforcement Learning peut-il résoudre le problème d'allocation de portefeuille ?

02/10/2023 à 10h00

M. Eric BENHAMOU présente ses travaux en soutenance le 02/10/2023 à 10h00

À l'adresse suivante : Université Paris Dauphine PSL Place du Maréchal de Lattre de Tassigny 75016 Paris Salle des thèse - D520

En vue de l'obtention du diplôme : Doctorat en Informatique

La soutenance est publique

Titre des travaux

Le Deep Reinforcement Learning peut-il résoudre le problème d'allocation de portefeuille ?

École doctorale

École doctorale Dauphine SDOSE

Équipe de recherche

UMR 7243 - Laboratoire d’Analyse et de Modélisation de Systèmes d’Aide à la Décision

Section CNU

27 - Informatique

Directeur(s)

MM. Jamal ATIF et Rida LARAKI

Membres du jury

Nom	Qualité	Établissement	Rôle
M. Jamal ATIF	Professeur des universités	UNIVERSITE PARIS DAUPHINE - PSL	Directeur de thèse
M. Rida LARAKI	Directeur de recherche	UNIVERSITE PARIS DAUPHINE PSL	Co-directeur de thèse
M. Damien CHALLET	Professeur	CentraleSupélec, Université Paris Saclay	Rapporteur
M. Rahul SAVANI	Full professor	Université de Liverpool	Rapporteur
M. Jérôme BUSCA	Professeur	École supérieure d'ingénieurs Léonard-de-Vinci (ESILV)	Examinateur
Mme Clémence ALASSEUR	Ingénieur de recherche	EDF Recherche	Examinatrice
Mme Evgenia PASSARI	Assistant professor	UNIVERSITE PARIS DAUPHINE - PSL	Examinatrice
Mme Nicole EL KAROUI	Professeur émérite	Sorbonne Université	Examinatrice

Résumé

Les modèles développés en théorie du portefeuille reposent principalement sur des principes statistiques et économiques. A la base, il y a un modèle. De celui-ci, en supposant les marchés financiers rationnels et sans arbitrage, on en déduit des relations. Ainsi si on part du principe de représentation du risque par ratio de Sharpe, on aboutit au portefeuille de Markowitz. Ces principes reposent sur des biais cognitifs en termes de risque (risque réduit à la variance) et sur des limitations en termes d'optimisation (optimisation quadratique). Si on souhaite s'en affranchir et appliquer des principes d'apprentissage automatique aux marchés financiers, on n'a plus besoin de faire de choix de modèle. On cherche simplement à trouver des relations entre les données sans à priori. Dans cette thèse, nous examinons la question centrale de savoir si l'apprentissage par renforcement profond (DRL) peut fournir de nouvelles méthodes d'allocation de portefeuille. Nous soutenons que le DRL offre de nouvelles méthodes reliant directement états et action et sont donc capables de s'adapter dynamiquement à un environnement changeant plus rapidement. Nous commençons par rappeler les fondements du DRL avant de revoir la question de l'allocation de portefeuille. Ceci nous permet de formuler les questions posées et adressées par cette thèse, à savoir comment utiliser des informations supplémentaires par rapport aux deux premiers moments des actifs du portefeuille et comment valider que cette approche se généralise en dehors de la période d'apprentissage. Ces travaux adressent la question de l’utilisation pratique du DRL sur données non stationnaires et fortement bruitées. Nous appliquons le DRL au cas d'allocation multi-actifs afin de cerner les points clefs de l'approche. Nous montrons empiriquement que le DRL permet de dépasser l'état de l'art des méthodes d’allocation de portefeuille et de mieux s'adapter aux conditions de marché. Le choix de l'architecture par réseaux de convolutions capture mieux la dépendance entre les données de marché et s'adapte à des changements de situation comme la crise du Covid. Nous étendons l'usage du DRL à un problème de sélection de modèles quantitatifs de ciblage de volatilité, développant ainsi une approche dite à base de modèles. Nous expliquons ensuite pourquoi l'approche DRL généralise les approches quantitatives classiques de théorie du portefeuille en étendant le problème d'optimisation à un problème de contrôle optimal multi périodes. Nous montrons que les méthodes DRL réalisent des réductions de variance et analysons le cas particulier de la méthode acteur critique en l'interprétant comme la résolution d'un problème de simulation de Monte Carlo par variable de contrôle optimal. Nous étudions aussi les similitudes entre l'apprentissage par renforcement et l'apprentissage supervisé. Nous exhibons notamment que l'apprentissage par renforcement par descente de gradient est en fait un apprentissage supervisé avec une fonction de perte d'entropie croisée et des labels égaux aux récompenses optimales. Ce résultat bien que théorique en raison de l'impossibilité de connaitre à l'avance les récompenses optimales établit un lien profond entre les deux méthodes d'apprentissage. Nous terminons cette thèse sur l'analyse de la méthode d'apprentissage des hyperparamètres par adaptation de la matrice de covariance et stratégie évolutionnaire. Grace aux lois de Wishart et Wishart inverse, conjuguées au sens Bayesien de la normale multivariée, nous établissons des formules similaires à celles trouvées empiriquement dans l'algorithme CMAES. Ceci démontre que CMAES est de façon cachée une optimisation Bayesienne par loi normale multivariée et loi conjuguée dont l'objectif de modélisation est la distribution de l'optimum. Nous concluons cette thèse en résumant nos contributions et présentons des développements futurs, que ce soit par des prolongements naturels ou des questions nouvelles que cette thèse suscite.

Toutes les soutenances de thèse