Des jeux au vivant : l’IA selon Tristan Cazenave

5 mn - Le 30 octobre 2025

Tout est parti d’un jeu de Go et d’une idée simple : et si une machine pouvait progresser seule, juste en jouant ? Trente ans plus tard, Tristan Cazenave, professeur à l’Université Paris-Dauphine – PSL et chercheur au LAMSADE, poursuit toujours cette intuition. De la stratégie au hasard, il a fait des jeux un terrain d’expérimentation pour l’intelligence artificielle, avant d’en transposer les méthodes vers la biologie.

Le jeu, Tristan Cazenave, ça le connaît ! À seize ans, il programme deux jeux vidéo publiés par Froggy Software. Cette passion, il la transpose quelques années plus tard dans sa recherche en intelligence artificielle pour les jeux. Une discipline qui ne l’a jamais quitté.

Jouer pour comprendre

Dans les années 1990, les programmes de Go sont notoirement faibles. Ce jeu, d’une complexité vertigineuse, résiste aux approches classiques de l’intelligence artificielle. À l’époque, l’IA reste surtout une affaire de logique et de règles. On programme les machines comme on enseigne une stratégie, pas à pas, sans qu’elles ne s’écartent du plan.

Tristan Cazenave, alors doctorant à l’université Paris 6 – Pierre et Marie Curie, choisit une autre voie. Sa thèse, soutenue en 1996, explore l’idée d’un programme capable d’apprendre seul en observant ses propres parties. « C’était un vrai défi pour l’IA, et cette approche a eu le mérite d’améliorer grandement ses performances sur le jeu de Go », résume-t-il aujourd’hui. Cette première tentative pour donner aux machines une forme d’autonomie d’apprentissage survient bien avant que le machine learning ne s’impose.

Elle marque le début de plusieurs décennies d’expérimentations méthodologiques qui mèneront, vingt ans plus tard, aux prouesses d’AlphaGo, le premier programme de Go à battre un joueur professionnel. Et les recherches de Tristan Cazenave n’ont eu de cesse de paver le chemin de cette future révolution.

La révolution Monte Carlo

À la fin des années 1990, Tristan Cazenave abandonne la logique démonstrative pour explorer une approche statistique encore peu utilisée dans le domaine : la recherche Monte Carlo appliquée au Go. Cette dernière consiste à simuler des milliers de parties aléatoires pour évaluer la qualité d’un coup. Plutôt que d’examiner toutes les suites possibles, son programme Golois joue des milliers de parties fictives à partir d’une position donnée. En observant lesquelles mènent le plus souvent à la victoire, il en déduit les coups les plus prometteurs. « Cela revient à faire des statistiques sur des parties aléatoires », résume le chercheur.

Cette approche empirique s’avère redoutablement efficace, au point de transformer le paysage. À partir de 2007, les programmes de Go basés sur cette approche deviennent enfin compétitifs face aux humains. L’algorithme sous-jacent présente une propriété décisive : il est dit anytime – autrement dit, plus on lui accorde de temps, meilleur il devient.

« Comme un joueur qui affine sa stratégie »

Fort de ce succès, Tristan Cazenave s’attaque ensuite à un nouveau défi : concevoir un algorithme capable de jouer à n’importe quel jeu, et non plus seulement au Go. En 2009, avec son collègue Jean Méhat, il met cette idée à l’épreuve dans la compétition internationale de General Game Playing de l’International Joint Conference on Artificial Intelligence (IJCAI). Leur programme Ary parvient à s’adapter à des jeux totalement inconnus - du Sudoku à des variantes inédites d’échecs ou même des hybrides mêlant le morpion, les dames et Puissance 4 - et remporte le tournoi. Il s’appuie sur un nouvel algorithme où la machine apprend de ses propres simulations. « Chaque partie jouée lui sert à mieux orienter la suivante, comme un joueur qui affine sa stratégie au fil des essais », explique le chercheur. Ary est un véritable champion de l’exploration.

Dans cette lignée, Tristan Cazenave conçoit quelques années plus tard GRAVE (Generalized Rapid Action Value Estimation), une nouvelle variante de la recherche Monte Carlo. Plus rapide et plus stable, cet algorithme deviendra une référence dans le domaine et reste aujourd’hui encore considéré comme un état de l’art.

Un succès multi-médaillé

En 2016, AlphaGo bouleverse le monde de l’intelligence artificielle appliquée aux jeux. Pour la première fois, un programme bat les meilleurs joueurs humains au Go. Sa recette ? Combiner la recherche Monte Carlo avec l’apprentissage profond — des réseaux de neurones capables d’évaluer les positions et de guider les simulations.

« À partir de là, tout le monde s’est mis à combiner la recherche Monte Carlo aux réseaux de neurones parce que c’était beaucoup plus efficace que les parties aléatoires », souligne Tristan Cazenave. Avec Quentin Cohen-Solal, il conçoit Athénan, un système multi-jeux fondé sur l’apprentissage en jouant contre soi-même. Capable de s’adapter à des dizaines de jeux différents, Athénan a remporté 48 médailles d’or aux Computer Olympiads entre 2020 et 2024.

Particulièrement moteur dans l’évolution méthodologique de son domaine, Tristan Cazenave s’ouvre ensuite, à la fin des années 2010, à de nouvelles applications. Avec son étudiant Walid Bendada, il contribue notamment au développement d’algorithmes de recommandation utilisés par Deezer.

Du plateau au labo

Le cadre général des méthodes développées par Tristan Cazenave se révèle si adaptable qu’il peut être transposé bien au-delà du jeu. « J’aime toujours travailler sur les jeux, mais ça me plaît aussi beaucoup de tester tout le potentiel des techniques nées dans ce domaine en les appliquant à une grande variété de questions scientifiques d’autres disciplines », confie-t-il.

Aujourd’hui, ses algorithmes ne servent plus seulement à gagner : ils optimisent. En 2020, le chercheur transpose ainsi ses approches au domaine de la biologie avec Montparnasse, un programme de conception de molécules d’ARN. L’enjeu ? Résoudre Eterna100, un défi majeur en biologie computationnelle lancé par l’université de Stanford (États-Unis). Son algorithme réussit à résoudre l’ensemble des 100 puzzles du défi. Ici, chaque « coup » correspond à choisir un nucléotide et la « victoire » consiste à atteindre la bonne forme moléculaire.

La même logique qui guidait ses IA sur le Go permet aujourd’hui, à travers ses travaux et ceux de ses doctorants, de concevoir des molécules, planifier des tournées logistiques ou optimiser des radars. Du jeu à la science, Tristan Cazenave poursuit la même quête : comprendre par l’exploration, apprendre par l’expérience.