Contributions à l'apprentissage en ligne dans les jeux stochastiques
28/09/2023 à 14h26
M. Lucas BAUDIN présente ses travaux en soutenance le 28/09/2023 à 14h26
À l'adresse suivante : Université Paris Dauphine PSL Place du Maréchal de Lattre de Tassigny 75016 Paris Salle des thèse - D520
En vue de l'obtention du diplôme : Doctorat en Informatique
La soutenance est publique
Titre des travaux
Contributions à l'apprentissage en ligne dans les jeux stochastiques
École doctorale
École doctorale Dauphine SDOSE
Équipe de recherche
UMR 7243 - Laboratoire d’Analyse et de Modélisation de Systèmes d’Aide à la Décision
Section CNU
27 - Informatique
Directeur(s)
MM. Rida LARAKI, Guillaume VIGERAL, Laurent GOURVES
Membres du jury
Nom | Qualité | Établissement | Rôle |
---|---|---|---|
M. Rida LARAKI | Directeur de recherche | UNIVERSITE PARIS DAUPHINE - PSL | Directeur de thèse |
M. Guillaume VIGERAL | Maître de conférences | UNIVERSITÉ PARIS-DAUPHINE - PSL | Co-directeur de thèse |
M. Laurent GOURVÈS | Directeur de recherche | UNIVERSITÉ PARIS-DAUPHINE - PSL | Co-directeur de thèse |
Mme Johanne COHEN | Directeur de recherche | UNIVERSITÉ PARIS-SACLAY | Examinatrice |
M. David LESLIE | Professor | LANCASTER UNIVERSITY | Rapporteur |
M. Panayotis MERTIKOPOULOS | Chargé de recherche | LABORATOIRE D'INFORMATIQUE DE GRENOBLE | Rapporteur |
M. Mathieu FAURE | Maître de conférences | AIX-MARSEILLE UNIVERSITÉ | Examinateur |
Résumé
Cette thèse est consacrée à l'étude de la dynamique de systèmes multi-agents dans lesquels les agents apprennent via des algorithmes. Formellement, il s'agit d'apprentissage en ligne dans les jeux stochastiques. L'apprentissage en ligne est un champ des mathématiques et de l'informatique dans lequel on cherche à optimiser une fonction d'utilité ou de perte tout en interagissant avec l'environnement. À chaque étape, un agent choisit une action et observe ensuite ce qu'elle lui rapporte. Dans un jeu stochastique, les fonctions d'utilité des joueurs sont paramétrées par une variable d'état dont l'évolution peut être influencée par les joueurs. Cette thèse étudie des procédures d'apprentissage, certaines originales et d'autres déjà connues, qui peuvent être utilisées par des agents qui interagissent dans un environnement modélisé par un jeu stochastique. Nous analysons les dynamiques résultant de ces systèmes, par exemple en prouvant que le comportement moyen des agents converge vers un équilibre.