Dossier | Dauphine Digital Days 2022 "IA & société" - Les actes #1
L’apport de l’IA pour l’exploitation des données financières
Les deux chercheurs présentent leur vision et leurs travaux sur l’utilisation des données dans l’univers de la finance.
Charles-Albert Lehalle, Abu Dhabi Investment Authority, ADIA, Émirats arabes unis et Imperial College London, Royaume-Uni, Pierre-Louis Lions, Collège de France
Pierre-Louis Lions, professeur au Collège de France, membre du CEREMADE et Médaille Fields 1994, et Charles-Albert Lehalle, Quantitative R&D Lead à Abu Dhabi Investment Authority et visiting professor à Imperial College, présentent les différentes facettes de l’utilisation des techniques de Machine Learning et d’Intelligence Artificielle en finance, les perspectives incroyables qu’elles offrent mais également leurs limites et les risques d’une utilisation inappropriée.
La première intervention est celle de Charles-Albert Lehalle. Personnalisation des produits financiers, en fonction des profils clients, utilisation de données alternatives incluant du texte, des images, des graphes, ou tout autre genre de données pour mieux comprendre où devraient se situer les prix, contrôles automatiques des risques, du pricing, algorithmes de trading automatiques, etc. Le champ des possibles ouvert par ces nouvelles technologies est considérable.
Il revient dans un premier temps sur la différence fondamentale entre statistiques traditionnelles et techniques de Machine Learning. Les statistiques traditionnelles reposent sur le concept de modèle et de modélisation probabiliste. En supposant que le modèle de référence est le bon, ce qui n’est jamais le cas, la théorie statistique permet une estimation de ces paramètres et d’un contrôle de la distribution de l’erreur. Tout comme le Machine Learning, l’estimation statistique repose sur un critère d’optimisation.
La différence avec la plupart des méthodes de Machine Learning est que cette optimisation, et le résultat qui en découle, est fondée mathématiquement par la théorie des probabilités. Les approches de Machines Learning sont certainement bien plus efficaces en ce qu’elles sont capables de récupérer une information hautement non linéaire contenue dans les données et bénéficient aujourd’hui d’algorithmes d’optimisation très efficaces. Cependant, elles ne sont pas supportées par une théorie statistique sous-jacente, ce qui conduit par exemple au risque bien connu d’overfitting et d’absence de capacité d’extrapolation.
Charles-Albert Lehalle rappelle que la mise en œuvre d’un algorithme d’apprentissage, repose sur : des données, une fonction de perte, que l’on cherche à minimiser, et un algorithme d’optimisation. Quelles problématiques ce système peut-il rencontrer ? « L’algorithme peut ne pas être bon, le gradient peut ne pas pointer dans la bonne direction. Des papiers relativement récents montrent effectivement que l’algorithme peut se retrouver perdu, même si l’on utilise un approximateur universel. La fonction de perte peut aussi être mal choisie ! » Il appelle cela l’effet Aladin : « si on demande quelque chose à un génie, on reçoit ce que l’on a demandé, mais pas nécessairement ce que l’on voulait vraiment ». Le choix de la fonction de perte est donc crucial et doit être fait en ligne avec les objectifs, de couverture de risques financiers par exemple.
Les données peuvent également être biaisées. Est-ce grave ? Là encore tout dépend de l’utilisation que l’on compte en faire ! Le biais s’entend à l’aune de l’application.
Autre point important : l’enjeu de la causalité. Les décisions économiques et financières reposent avant tout sur la notion de causalité, un évènement E en cause un autre E’. C’est l’observation de E qui va conduire à une prise de décision car l’on sait qu’il va (au moins très probablement) conduire à la survenance de E’. Nous savons déjà en statistiques traditionnelles que corrélation n’est pas causalité. Un exemple. « Conditionnellement au fait que vous avez acheté un laptop, vous allez très probablement acheter un sac à dos. Dans les bases de données d’Amazon, il est de bon ton de recommander d’acheter un sac à dos à la suite de l’ordinateur. C’est une causalité. Les faits d’acheter un sac à ordinateur et un ordinateur sont aussi "corrélés", mais le fait d’acheter un sac n’a pas de causalité sur le celui d’acheter un ordinateur. »
Pierre-Louis Lions part d’un autre angle : créer de nouvelles données à travers des modèles d’aide à la décision. « Ces derniers sont des objets mathématiques, qui ont un grave défaut, identifié dans les années 1950 par Richard Bellman, l’inventeur de la programmation dynamique. Il a tout de suite observé un problème fondamental : quand le nombre de variables augmente, la dimension de l’espace de résolution augmente exponentiellement vite ! Il avait appelé cela la "curse of dimentionality", autrement dit "le fléau de la dimension" ». C’est notamment un problème majeur pour les applications de la théorie des jeux à champ moyen, justement introduite par Jean-Michel Lasry et Pierre-Louis Lions.
Toutefois, bien souvent la structure des solutions n’est pas aussi compliquée qu’on le croit : il y a des variables explicatives que l’on ne connaît pas, souvent en nombre plus réduit. C’est là que les réseaux de neurones deviennent très utiles. Ils semblent qu’ils soient capables de trouver la structure hautement non-linéaire des solutions en termes d’un nombre réduits de facteurs. Nous sommes maintenant capables de faire un certain nombre de calculs que nous n’étions tout simplement pas capable de faire avant !
Ici, il ne s’agit plus de « statistiques » mais de calcul numériquement efficace : résolution d’un problème de gestion de portefeuille, évaluation de risques et de leurs couvertures, etc. Ceci se joue à deux niveaux. Dans l’architecture des réseaux de neurones, si l’on anticipe quels sont les paramètres importants, à partir de quelles variables explicatives on peut espérer trouver une solution. Dans le choix de la fonction perte doit donc être fait en fonction de la nature du problème mathématique à résoudre.