Le Deep Reinforcement Learning peut-il résoudre le problème d'allocation de portefeuille ?
02/10/2023 à 10h00
M. Eric BENHAMOU présente ses travaux en soutenance le 02/10/2023 à 10h00
À l'adresse suivante : Université Paris Dauphine PSL Place du Maréchal de Lattre de Tassigny 75016 Paris Salle des thèse - D520
En vue de l'obtention du diplôme : Doctorat en Informatique
La soutenance est publique
Titre des travaux
Le Deep Reinforcement Learning peut-il résoudre le problème d'allocation de portefeuille ?
École doctorale
École doctorale Dauphine SDOSE
Équipe de recherche
UMR 7243 - Laboratoire d’Analyse et de Modélisation de Systèmes d’Aide à la Décision
Section CNU
27 - Informatique
Directeur(s)
MM. Jamal ATIF et Rida LARAKI
Membres du jury
Nom | Qualité | Établissement | Rôle |
---|---|---|---|
M. Jamal ATIF | Professeur des universités | UNIVERSITE PARIS DAUPHINE - PSL | Directeur de thèse |
M. Rida LARAKI | Directeur de recherche | UNIVERSITE PARIS DAUPHINE PSL | Co-directeur de thèse |
M. Damien CHALLET | Professeur | CentraleSupélec, Université Paris Saclay | Rapporteur |
M. Rahul SAVANI | Full professor | Université de Liverpool | Rapporteur |
M. Jérôme BUSCA | Professeur | École supérieure d'ingénieurs Léonard-de-Vinci (ESILV) | Examinateur |
Mme Clémence ALASSEUR | Ingénieur de recherche | EDF Recherche | Examinatrice |
Mme Evgenia PASSARI | Assistant professor | UNIVERSITE PARIS DAUPHINE - PSL | Examinatrice |
Mme Nicole EL KAROUI | Professeur émérite | Sorbonne Université | Examinatrice |
Résumé
Les modèles développés en théorie du portefeuille reposent principalement sur des principes statistiques et économiques. A la base, il y a un modèle. De celui-ci, en supposant les marchés financiers rationnels et sans arbitrage, on en déduit des relations. Ainsi si on part du principe de représentation du risque par ratio de Sharpe, on aboutit au portefeuille de Markowitz. Ces principes reposent sur des biais cognitifs en termes de risque (risque réduit à la variance) et sur des limitations en termes d'optimisation (optimisation quadratique). Si on souhaite s'en affranchir et appliquer des principes d'apprentissage automatique aux marchés financiers, on n'a plus besoin de faire de choix de modèle. On cherche simplement à trouver des relations entre les données sans à priori. Dans cette thèse, nous examinons la question centrale de savoir si l'apprentissage par renforcement profond (DRL) peut fournir de nouvelles méthodes d'allocation de portefeuille. Nous soutenons que le DRL offre de nouvelles méthodes reliant directement états et action et sont donc capables de s'adapter dynamiquement à un environnement changeant plus rapidement. Nous commençons par rappeler les fondements du DRL avant de revoir la question de l'allocation de portefeuille. Ceci nous permet de formuler les questions posées et adressées par cette thèse, à savoir comment utiliser des informations supplémentaires par rapport aux deux premiers moments des actifs du portefeuille et comment valider que cette approche se généralise en dehors de la période d'apprentissage. Ces travaux adressent la question de l’utilisation pratique du DRL sur données non stationnaires et fortement bruitées. Nous appliquons le DRL au cas d'allocation multi-actifs afin de cerner les points clefs de l'approche. Nous montrons empiriquement que le DRL permet de dépasser l'état de l'art des méthodes d’allocation de portefeuille et de mieux s'adapter aux conditions de marché. Le choix de l'architecture par réseaux de convolutions capture mieux la dépendance entre les données de marché et s'adapte à des changements de situation comme la crise du Covid. Nous étendons l'usage du DRL à un problème de sélection de modèles quantitatifs de ciblage de volatilité, développant ainsi une approche dite à base de modèles. Nous expliquons ensuite pourquoi l'approche DRL généralise les approches quantitatives classiques de théorie du portefeuille en étendant le problème d'optimisation à un problème de contrôle optimal multi périodes. Nous montrons que les méthodes DRL réalisent des réductions de variance et analysons le cas particulier de la méthode acteur critique en l'interprétant comme la résolution d'un problème de simulation de Monte Carlo par variable de contrôle optimal. Nous étudions aussi les similitudes entre l'apprentissage par renforcement et l'apprentissage supervisé. Nous exhibons notamment que l'apprentissage par renforcement par descente de gradient est en fait un apprentissage supervisé avec une fonction de perte d'entropie croisée et des labels égaux aux récompenses optimales. Ce résultat bien que théorique en raison de l'impossibilité de connaitre à l'avance les récompenses optimales établit un lien profond entre les deux méthodes d'apprentissage. Nous terminons cette thèse sur l'analyse de la méthode d'apprentissage des hyperparamètres par adaptation de la matrice de covariance et stratégie évolutionnaire. Grace aux lois de Wishart et Wishart inverse, conjuguées au sens Bayesien de la normale multivariée, nous établissons des formules similaires à celles trouvées empiriquement dans l'algorithme CMAES. Ceci démontre que CMAES est de façon cachée une optimisation Bayesienne par loi normale multivariée et loi conjuguée dont l'objectif de modélisation est la distribution de l'optimum. Nous concluons cette thèse en résumant nos contributions et présentons des développements futurs, que ce soit par des prolongements naturels ou des questions nouvelles que cette thèse suscite.