Soutenances de thèse

Apprentissage et Optimisation de la Locomotion pour un Exosquelette à Destination des Patients Paraplégiques

09/12/2022 à 15h00

M. Alexis DUBURCQ présente ses travaux en soutenance le 09/12/2022 à 15h00

À l'adresse suivante : Université Paris Dauphine - PSL, Place du Maréchal de Lattre de Tassigny 75016 Paris Salle A701

En vue de l'obtention du diplôme : Doctorat en Informatique

La soutenance est publique

Titre des travaux

Apprentissage et Optimisation de la Locomotion pour un Exosquelette à Destination des Patients Paraplégiques

École doctorale

École doctorale Dauphine SDOSE

Équipe de recherche

UMR 7243 - Laboratoire d’Analyse et de Modélisation de Systèmes d’Aide à la Décision

Section CNU

27 - Informatique

Directeur(s)

M. Yann CHEVALEYRE et M. Nicolas BREDECHE

Membres du jury

Nom	Qualité	Établissement	Rôle
M. Yann CHEVALEYRE	Professeur des universités	Université Paris Dauphine- PSL	Directeur de thèse
Mme Christine CHEVALLEREAU	Directeur de recherche	Ecole Centrale de Nantes, LS2N	Rapporteure
M. Jean-Baptiste MOURET	Directeur de recherche	INRIA, LARSEN	Rapporteur
M. Sylvain CHEVALLIER	Professeur	Université de Versailles St-Quentin, LISV	Examinateur
M. Sylvain FINET	Ingénieur	Wandercraft	Examinateur
M. Guilhem BOÉRIS	Ingénieur	Wandercraft	Co-encadrant de thèse
M. Nicolas BREDECHE	Professeur des universités	Sorbonne Université, ISIR	Co-directeur de thèse

Résumé

L'objectif de cette thèse est d'exploiter les methodes existantes issu du domaine machine learning afin d'améliorer le planning et control des robots bipèdes. Dès le départ, nous nous sommes fixé comme objectif concret d'aider les paraplégiques à remarcher de façon autonome à l'aide de l'exosquelette de membres inférieurs Atalante. Afin de ne pas perdre de vue cette objective, le pragmatisme et la perpetuelle confrontation à la réalité ont été les pierres angulaires de ce travail. Ce paradigme a eu une importance capitale dans le design des methodes qui ont été proposé dans ce travail, tout en enforçant malgré tout à étendre leur portée au maximum. L'idée centrale est de combiner les methodes issues des domaines du machine learning et de la robotique traditionnelle afin de mutualiser leurs avantages respectifs, plutôt que de substituer l'un à l'autre. Dans la première partie, nous laissons de côté le contrôle en boucle fermée. L'objectif est de permettre la planification de trajectoires en ligne tout en garantissanun fonctionnement sûr. Il s'agit d'une étape importante vers la navigation en environnement non structuré et la prise en compte des préférences utilisateur. Nous y parvenons en entraînant hors ligne une fonction d'approximation des solutions à un problème d'optimisation de trajectoire quelconque pour un espace de tâche continu. Nous nous assurons que les trajectoires ainsi générées puissent être parfaitement reproduites par la function d'approximation, quelle que soit son expressivité. Le coût de calcul est comparable à la génération d'une base de données de trajectoires et s'adapte bien à un espace de tâches de grande dimension. Notre algorithme est compatible avec n'importe quel outil de planification de mouvement et peut également être utilisé pour résoudre n'importe quel problème d'optimisation multiparamétrique au-delà du domaine de la robotique. En pratique, la fonction d'approximation est un réseau de neurones spécialement conçu pour prédire des séries temporelles continues et sert de "mémoire du mouvement" pouvant être évaluée en ligne presque instantanément. Dans la deuxième partie, nous entraînons un contrôleur par apprentissage par renforcement afin de généraliser un ensemble prédéfini de mouvements élémentaires qui ont été générés et validés cliniquement avec un utilisateur moyen se déplaçant sur un terrain plat. L'objectif n'est pas d'atteindre la meilleure performance possible, mais plutôt d'assurer la transférabilité et la sécurité. Nous proposons une nouvelle formulation étroitement liée à l'apprentissage par imitation, dans le sens où les trajectoires sont utilisées pour guider et contraindre l'optimisation du contrôleur de la même manière que des démonstrations d'experts, tout en donnant suffisamment de liberté pour compenser de grandes perturbations extérieures ainsi que les erreurs de modélisation. Deux scénarios très différents ont été étudiés : reproduire l'ensemble des mouvements nominaux, et se rattraper lors d'un violent impact dans une posture statique de repos. Seul ce dernier cas de figure a été évalué sur Atalante par manque de temps. La performance du contrôleur sont satisfaisantes sans aucun type d'adaptation en dépit du transfert de la simulation à la réalité, ce qui est prometteur. Un simulateur open-source de robots poly-articulés appelé Jiminy a été développé afin de rendre ce travail possible. Il est spécifiquement adapté à l'apprentissage par renforcement. En particulier, plusieurs paramètres sont disponibles pour arbitrer entre réalisme et régularité de la physique afin de faciliter ou d'accélérer l'apprentissage. En interne, il s'appuie sur une nouvelle formulation analytique du contact qui ne nécessite pas le calcul de forces impulsionnelles. En outre, il tient compte de nombreuses limitations matérielles et effets secondaires, notamment le jeu articulaire, le délai de communication variable, l'inertie des rotors et la déformation mécanique de la structure.

Toutes les soutenances de thèse