Apprentissage et Optimisation de la Locomotion pour un Exosquelette à Destination des Patients Paraplégiques
09/12/2022 à 15h00
M. Alexis DUBURCQ présente ses travaux en soutenance le 09/12/2022 à 15h00
À l'adresse suivante : Université Paris Dauphine - PSL, Place du Maréchal de Lattre de Tassigny 75016 Paris Salle A701
En vue de l'obtention du diplôme : Doctorat en Informatique
La soutenance est publique
Titre des travaux
Apprentissage et Optimisation de la Locomotion pour un Exosquelette à Destination des Patients Paraplégiques
École doctorale
École doctorale Dauphine SDOSE
Équipe de recherche
UMR 7243 - Laboratoire d’Analyse et de Modélisation de Systèmes d’Aide à la Décision
Section CNU
27 - Informatique
Directeur(s)
M. Yann CHEVALEYRE et M. Nicolas BREDECHE
Membres du jury
Nom | Qualité | Établissement | Rôle |
---|---|---|---|
M. Yann CHEVALEYRE | Professeur des universités | Université Paris Dauphine- PSL | Directeur de thèse |
Mme Christine CHEVALLEREAU | Directeur de recherche | Ecole Centrale de Nantes, LS2N | Rapporteure |
M. Jean-Baptiste MOURET | Directeur de recherche | INRIA, LARSEN | Rapporteur |
M. Sylvain CHEVALLIER | Professeur | Université de Versailles St-Quentin, LISV | Examinateur |
M. Sylvain FINET | Ingénieur | Wandercraft | Examinateur |
M. Guilhem BOÉRIS | Ingénieur | Wandercraft | Co-encadrant de thèse |
M. Nicolas BREDECHE | Professeur des universités | Sorbonne Université, ISIR | Co-directeur de thèse |
Résumé
L'objectif de cette thèse est d'exploiter les methodes existantes issu du domaine machine learning afin d'améliorer le planning et control des robots bipèdes. Dès le départ, nous nous sommes fixé comme objectif concret d'aider les paraplégiques à remarcher de façon autonome à l'aide de l'exosquelette de membres inférieurs Atalante. Afin de ne pas perdre de vue cette objective, le pragmatisme et la perpetuelle confrontation à la réalité ont été les pierres angulaires de ce travail. Ce paradigme a eu une importance capitale dans le design des methodes qui ont été proposé dans ce travail, tout en enforçant malgré tout à étendre leur portée au maximum. L'idée centrale est de combiner les methodes issues des domaines du machine learning et de la robotique traditionnelle afin de mutualiser leurs avantages respectifs, plutôt que de substituer l'un à l'autre. Dans la première partie, nous laissons de côté le contrôle en boucle fermée. L'objectif est de permettre la planification de trajectoires en ligne tout en garantissanun fonctionnement sûr. Il s'agit d'une étape importante vers la navigation en environnement non structuré et la prise en compte des préférences utilisateur. Nous y parvenons en entraînant hors ligne une fonction d'approximation des solutions à un problème d'optimisation de trajectoire quelconque pour un espace de tâche continu. Nous nous assurons que les trajectoires ainsi générées puissent être parfaitement reproduites par la function d'approximation, quelle que soit son expressivité. Le coût de calcul est comparable à la génération d'une base de données de trajectoires et s'adapte bien à un espace de tâches de grande dimension. Notre algorithme est compatible avec n'importe quel outil de planification de mouvement et peut également être utilisé pour résoudre n'importe quel problème d'optimisation multiparamétrique au-delà du domaine de la robotique. En pratique, la fonction d'approximation est un réseau de neurones spécialement conçu pour prédire des séries temporelles continues et sert de "mémoire du mouvement" pouvant être évaluée en ligne presque instantanément. Dans la deuxième partie, nous entraînons un contrôleur par apprentissage par renforcement afin de généraliser un ensemble prédéfini de mouvements élémentaires qui ont été générés et validés cliniquement avec un utilisateur moyen se déplaçant sur un terrain plat. L'objectif n'est pas d'atteindre la meilleure performance possible, mais plutôt d'assurer la transférabilité et la sécurité. Nous proposons une nouvelle formulation étroitement liée à l'apprentissage par imitation, dans le sens où les trajectoires sont utilisées pour guider et contraindre l'optimisation du contrôleur de la même manière que des démonstrations d'experts, tout en donnant suffisamment de liberté pour compenser de grandes perturbations extérieures ainsi que les erreurs de modélisation. Deux scénarios très différents ont été étudiés : reproduire l'ensemble des mouvements nominaux, et se rattraper lors d'un violent impact dans une posture statique de repos. Seul ce dernier cas de figure a été évalué sur Atalante par manque de temps. La performance du contrôleur sont satisfaisantes sans aucun type d'adaptation en dépit du transfert de la simulation à la réalité, ce qui est prometteur. Un simulateur open-source de robots poly-articulés appelé Jiminy a été développé afin de rendre ce travail possible. Il est spécifiquement adapté à l'apprentissage par renforcement. En particulier, plusieurs paramètres sont disponibles pour arbitrer entre réalisme et régularité de la physique afin de faciliter ou d'accélérer l'apprentissage. En interne, il s'appuie sur une nouvelle formulation analytique du contact qui ne nécessite pas le calcul de forces impulsionnelles. En outre, il tient compte de nombreuses limitations matérielles et effets secondaires, notamment le jeu articulaire, le délai de communication variable, l'inertie des rotors et la déformation mécanique de la structure.