Dossier | Les intelligences artificielles génératives : l'envers du décor
L'analyse de texte pour mieux comprendre le comportement des acteurs boursiers
Comment « faire parler » les données d’analyse du sentiment de marché ? Des techniques computationnelles permettent d'analyser les discours des parties prenantes des marchés financiers.
Article de Fabrice Riva, professeur de finance à l'Université Paris Dauphine - PSL, membre de DRM.
Le cours d’un actif sur un marché n’est que la somme des revenus futurs qu’il procure, actualisés à un taux reflétant leur risque. Toute information de nature à affecter la valeur de ces revenus ou à modifier le risque qui leur est associé doit, selon l’hypothèse d’efficience informationnelle des marchés (Fama, 1970), se traduire par un ajustement des cours de l’actif en question.
Les chercheurs en finance s’intéressent en particulier à l’évaluation des actifs financiers, et de ce fait au rôle joué par l’information dans les fluctuations de cours que connaissent ceux-ci. Pour ces travaux, disposer de moyens de synthétiser l’information en une grandeur numérique afin de pouvoir l’intégrer dans leurs modèles a toujours été une préoccupation majeure.
La tâche est, on s’en doute, loin d’être aisée. Le travail de recherche se trouve dans une large mesure facilité lorsque l’information existante se présente directement sous forme quantifiée (chiffre d’affaires, ratio de marge, niveau des taux d’intérêt, etc.). Il devient en revanche plus complexe lorsque les informations à prendre en compte se présentent sous forme textuelle, non structurée.
“À cette difficulté de « faire parler » les textes pour en extraire des indicateurs synthétiques, s’ajoute le volume et la diversité des sources textuelles”
À cette difficulté de « faire parler » les textes pour en extraire des indicateurs synthétiques, s’ajoute l’extraordinaire volume et la diversité des sources textuelles : rapports annuels d’entreprises, communiqués de presse, notes d’analystes, news, etc.
Récemment, sont venues s’ajouter les informations véhiculées par les messages échangés sur les forums internet (comme par exemple wallstreetbets sur Reddit) et sur les réseaux sociaux, au premier rang desquels X (ex-Twitter). En quantité pléthorique, non vérifiés, ayant leurs codes langagiers propres (abréviations, argot, jeux de mots, utilisation massive d’emojis), globalement caractérisés par un rapport signal sur bruit faible, ces messages présentent des défis particuliers lorsqu’il s’agit d’extraire l’information qu’ils contiennent. Mais ces messages existent, sont parfois pertinents, et ne peuvent dès lors être ignorés.
Dresser un panorama exhaustif des articles de finance utilisant des données textuelles est impossible compte tenu de la variété des méthodes utilisées et des problématiques de recherche auxquelles elles sont appliquées. Plus modestement, l’objectif est ici de présenter quelques exemples de travaux visant à intégrer dans leur analyse des données textuelles faisant partie de l’environnement informationnel des marchés financiers.
Nous commencerons par présenter les premières tentatives visant à « faire parler » l’information dans le cadre spécifique de l’analyse du sentiment de marché. Nous détaillerons ensuite deux études réalisées par des membres de l’équipe Finance du laboratoire Dauphine Recherches en Management, utilisant différents types de messages.
La première recherche s’intéresse au contenu du discours des dirigeants au moment des annonces de fusions-acquisitions.
La seconde se penche sur l’impact des messages échangés sur Twitter au moment de la faillite de la Silicon Valley Bank. La conclusion abordera quelques pistes de recherche ouvertes par l’apparition récente des Large Language Models (LLM).
Indicateurs de sentiment et comportement du marché
L’environnement informationnel des marchés ne se limite pas aux seules informations strictement factuelles. Le sentiment des investisseurs notamment est une donnée pouvant influencer les cours d’un titre. En effet, si les investisseurs se montrent pessimistes quant à l’état futur de l’économie, ils auront naturellement tendance à revoir à la baisse les revenus futurs anticipés et/ou à exiger une prime de risque (et donc un taux d’actualisation plus élevé) sur les actifs qu’ils détiennent. Ceci aura pour effet d’entraîner une baisse des cours.
Plusieurs études ont cherché à vérifier l’existence d’un lien entre le sentiment des investisseurs et le comportement des marchés. La première tentative significative dans ce domaine est due à Tetlock (2007), qui utilise la technique de l’opinion mining. Appliquée à la rubrique « Abreast of the Market » du Wall Street Journal sur la période 1984-1999, celle-ci permet de mesurer le degré de pessimisme des textes qui y sont publiés. La quantification du niveau de pessimisme est réalisée à partir des analyses de contenu produites par le General Inquirer.
Ce programme comptabilise le nombre d’occurrence des mots rattachés à 77 catégories préétablies sur la base du dictionnaire de Harvard. La catégorie « Negative » compte par exemple 2 291 mots. S’ils sont davantage représentés dans un texte que les 1 915 relevant de la catégorie « Positive », une connotation pessimiste est attribuée au texte en question.
Les erreurs de classification sont possibles. Comme le relève Tetclock, une phrase telle que « No, the economy is not strong » sera considérée par le General Inquirer comme relevant de la même catégorie que la phrase « It is not that the economy is not strong » alors que la seconde affirme le contraire de la première. Malgré ces possibles erreurs, les résultats obtenus sont instructifs. Il est ainsi impossible de rejeter l’hypothèse que le contenu de la rubrique « Abreast of the market » n’a aucun impact sur les marchés. En effet, des valeurs anormalement fortes ou faibles de pessimisme des contenus s’accompagnent d’une augmentation des volumes d’échange sur les titres concernés.
“Un niveau particulièrement élevé du pessimisme mesuré se traduit par une baisse des cours le lendemain de la publication”
De plus, un niveau particulièrement élevé du pessimisme mesuré se traduit par une baisse des cours le lendemain de la publication. De façon intéressante, cette baisse de cours est corrigée dans les jours qui suivent, suggérant ainsi que l’information pertinente potentiellement contenue dans les articles publiés est en réalité déjà intégrée dans les cours, et que les mouvements anormaux que connaissent les titres dans la foulée de la publication sont certainement le fait d’investisseurs peu avertis occasionnant des variations de cours rapidement arbitrées.
Outre la limite tenant à la simplicité de la technique de classification utilisée par le General Inquirer, un second problème tient au fait que la catégorisation proposée, issue du dictionnaire de Harvard, vaut pour des textes ayant un contenu généraliste. Dès lors, elle ne tient pas compte des spécificités propres au langage des affaires, et plus particulièrement de la finance.
Pour résoudre ce problème, Loughram et McDonald (2016) ont constitué une nouvelle liste de mots établie à partir du contenu des rapports annuels 10-K publiés par les entreprises américaines cotées. 2 623 mots sont référencés, ventilés en cinq catégories différentes : négatif, positif, contentieux juridique, modalité forte (« toujours », « doit »), modalité faible (« pourrait », possible »).
2 329 sont connotés positivement, 354 le sont négativement. Parmi les recherches traitant du sentiment des investisseurs menées à partir de cette liste, on notera en particulier l’article de Solomon et al. (2014), qui montre que les fonds bénéficiant d’articles employant un ton positif pour décrire leurs performances connaissent un afflux de souscriptions dans le trimestre suivant la publication… alors même que les performances des fonds sont connues pour être généralement peu persistantes dans le temps.
Les discours des dirigeants lors de l’annonce d’une fusion-acquisition
Par les montants mis en jeu, les conséquences organisationnelles pour les entreprises impliquées et les effets économiques qu’elles induisent, les fusions-acquisitions comptent parmi les opérations les plus importantes rythmant la vie des affaires.
La réussite d’une fusion-acquisition passe par une bonne évaluation de la création de valeur qu’apporte l’opération. La création de valeur attendue est cependant plus difficile à estimer et moins certaine si elle tire sa source de l’existence d’actifs intangibles (savoir-faire, culture d’entreprise, valeur des équipes, etc.). Les communiqués officiels (rapport 8-K) produits au moment de l’annonce d’une fusion-acquisition abordent assez fréquemment la question du rôle des actifs intangibles pour justifier l’opération.
Le risque cependant est que le recours à ce type d’explication masque en réalité un manque de motifs solides pour légitimer la fusion.
Cette hypothèse est testée par Filipovic et Wagner (2021). Partant du contenu des communiqués officiels diffusés lors d’opérations réalisées entre 2002 et 2019 aux Etats-Unis, ces derniers ont utilisé l’approche bag of words [ la méthode bag of words (littéralement « sac de mots ») consiste à représenter un document textuel en collectant et en comptant simplement les occurrences des mots, sans tenir compte de leur ordre ni de la structure grammaticale des phrases ] pour constituer une liste de 213 termes faisant référence aux actifs intangibles des entreprises. Le niveau d’intangibilité d’un communiqué est calculé comme le rapport du nombre de mots qu’il contient figurant dans la liste constituée sur le nombre total de mots.
Le niveau moyen d’intangibilité s’établit à 2,3%, avec des variations pouvant être importantes d’un communiqué à l’autre, en lien avec le secteur d’activité des entreprises concernées et les caractéristiques de l’entreprise cible. Détail intrigant, le niveau d’intangibilité d’un communiqué n’est dans les faits que peu relié au montant réel des actifs intangibles présents au niveau des entreprises impliquées dans l’opération. Ce que montrent en fait les auteurs est que le marché réagit très négativement aux annonces de fusions-acquisitions dont les communiqués font largement appel aux actifs intangibles pour justifier l’opération.
Le manque de consistance du discours est sanctionné par les investisseurs qui semblent assimiler un degré élevé d’intangibilité à un excès d’optimisme des managers quant à la réelle création de valeur apportée par l’opération.
Le rôle des réseaux sociaux dans la faillite de la Silicon Valley Bank
La Silicon Valley Bank (SVB), 16e plus grosse banque des Etats-Unis, a fait faillite le 10 mars 2023. Spécialisée dans le financement de startups opérant dans le secteur des nouvelles technologies, SVB avait accumulé d’importantes liquidités à la suite des levées de fonds réalisées par ces entreprises. Ces liquidités étaient investies par la banque dans des obligations du Trésor Américain, réputées peu risquées.
La hausse des taux d’intérêts due au resserrement de la politique monétaire de la Réserve Fédérale a eu comme premier effet d’entraîner une dégradation des conditions de financement de nombreuses startups, conduisant celles-ci à retirer une partie des liquidités déposées chez SVB. Pour faire face à l’afflux de retraits, la banque a dû liquider une partie des obligations qu’elle détenait. La chute de valeur de ces obligations liée à la remontée des taux s’est traduite pour SVB par une perte de près de 1,8 milliards de dollars. L’annonce concomitante d’une augmentation de capital de 2,25 milliards de dollars a entraîné une perte de confiance de ses clients et provoqué une panique bancaire conduisant à la fermeture de la banque. La crise s’est ensuite propagée à d’autres établissements, et des banques régionales similaires telles que First Republic Bank, Western Alliance Bancorporation et PacWest Bancorp, ont vu les cours de leurs actions s’effondrer.
Le développement d’une panique bancaire nécessite une coordination entre les déposants. Les messages échangés sur les réseaux sociaux peuvent agir comme un catalyseur du mécanisme. C’est ce que montrent Cookson et al. (2023) grâce à l’analyse d’un échantillon de plus de 5 millions de tweets mentionnant des établissements bancaires, publiés entre janvier 2020 et fin mars 2023. Le sentiment de chaque tweet est calculé à l’aide de l’algorithme VADER (Valence Aware Dictionary and sEntiment Reasoner), spécialement conçu pour l’analyse des messages publiés sur les réseaux sociaux.
Parallèlement, les contenus des différents tweets sont ventilés en 5 catégories, dont deux particulièrement intéressantes pour l’analyse : « Run Behavior » et « Contagion ».
Sur la période courant jusqu’au 7 mai 2023, la faible prévalence de tweets relevant de ces deux catégories, ou incluant des termes tels que « déposants » ou « retrait », suggère que la possibilité d’une panique bancaire n’est pas vraiment envisagée. Dès le 8 mai 2023 en revanche, le nombre de tweets traduisant un sentiment de défiance connaît une véritable explosion. Ceux-ci ciblent prioritairement la Silicon Valley Bank, mais d’autres banques - au premier rang desquelles First Republic Bank - sont également concernées. L’analyse de l’effet des tweets sur différentes variables traduisant le niveau d’inquiétude par rapport au contexte permet de préciser l’impact des réseaux sociaux.
Ainsi, les banques les plus ciblées par les tweets véhiculant l’idée de panique connaissent dans la foulée des retraits de fonds par leurs déposants plus importants de 3,37% par rapport à ceux observés sur les banques moins ciblées. La chute des cours de bourse des premières excède de 6,6% celle des secondes. Cette chute est d’autant plus marquée que le sentiment associé à un tweet est négatif. Ainsi, même si les problèmes qu’a connus SVB sont avant tout la conséquence de pratiques déficientes en matière de gestion des risques, l’article met en évidence le rôle de catalyseur joué par les réseaux sociaux dans le développement de la crise ayant mené à sa faillite.
Conclusion
Les quelques exemples détaillés ci-dessus, s’ils permettent d’illustrer l’apport des techniques de l’analyse textuelle dans la compréhension du comportement des acteurs des marchés, ne sauraient rendre compte de l’extraordinaire variété des problématiques qu’elles permettent de traiter dans le champ de la finance ni de l’étendue des méthodes d’analyse pouvant être mobilisées.
“Tous les grands thèmes de la recherche en finance intègrent désormais des techniques de traitement automatique des langues”
En ce qui concerne les champs d’application, tous les grands thèmes qui structurent la recherche en finance intègrent désormais des techniques issues du traitement automatique des langues, que ce soit pour la gestion d’actif, la gestion des risques ou l’impact investing, pour ne citer que quelques exemples.
Par souci de simplicité, seules les méthodes faisant essentiellement appel à des dictionnaires de mots ont été présentées. Plus récemment, Michev et al. (2020) ont appliqué des techniques fondées sur les transformers [ les transformers sont des architectures utilisés en traitement automatique des langues. La famille GPT en est une illustration. Fondées sur le mécanisme d’attention, ils permettent d’apprendre et de manipuler des représentations numérique pour les données textuelles, capturant les relations sémantiques et le contexte d’utilisation ] appliquées aux données textuelles issues des bases Financial Phrase Bank et SemEval-2017 Task 5, aboutissant à une classification du sentiment identique à celle fournie par des experts dans 95% des cas, contre 61% pour Loughram et McDonald.
Kazinnik (2023) utilise les réponses produites par le LLM OpenAI GPT-4 pour simuler le comportement de personnes (retrait des fonds, maintien, incertain) en fonction de leur caractéristiques (genre, revenus, niveau d’éducation, âge, réseau professionnel, culture financière, niveau de garantie des dépôts) face à des messages publiés sur Twitter suggérant une défaillance bancaire, dans des contextes variés en termes de réponses de différentes autorités (banque ciblée, Réserve Fédérale, président des Etats-Unis). La décision prise par le modèle est à la fois cohérente en termes de résultats attendus et en fonction des scénarios (un communiqué rassurant de la Réserve Fédérale réduit par exemple la propension des déposants à retirer leurs avoirs) et recouvre très largement les comportements observés empiriquement.
Les avancées réalisées dans le domaine du NLP, et notamment l’arrivée des LLM et des IA génératives, suscitent actuellement une vague de travaux tirant parti de la capacité de ces nouveaux outils à appréhender de façon plus fine le contenu d’un texte. Bien qu’ils restent pour l’instant au stade exploratoire, les résultats laissent entrevoir de nouvelles perspectives pour les recherches visant à mieux comprendre le comportement des investisseurs et des marchés.
Notes & Références
- Cookson J, Fox C. Gil-Bazo J., Imbet J. et C. Schiller (2023), “Social Media as a Bank Run Catalyst”
- Fama (1970), “Efficient Capital Markets: A Review of Theory and Empirical Work”, The Journal of Finance, 25, 383-417.
- Filipovic Z. et A. Wagner (2021), “The Intangibles Song in Takeover Announcements: Good Tempo, Hollow Tune”
- Kazinnik S. (2023), “Bank run, Interrupted: Modeling Deposit Withdrawals with Generative AI”
- Loughram T. et B. McDonald (2016), “Textual Analysis in Accounting and Finance: A Survey”, Journal of Accounting Research, 54, 1187-1230.
- Michev K., Giorgjeviks A., Vodenska I., Chitkushev L. et D. Trajanov (2020), “Evaluation of Sentiment Analysis in Finance: From Lexcons to Transformers”, IEEE, 8, 131662-131682.
- Solomon D., Soltes E. et D. Sosyura (2014), “Winners in the Spotlight: Media Coverage of Fund Holdings as a Driver of Flows”, Journal of Financial Economics, 113, 53-72.
- Tetlock P. (2007), “Giving content to Investor Sentiment: The Role of Media in the Stock Market”, The Journal of Finance, 62, 1139-1168.
<o:p></o:p>