Soutenances de thèse

Identification des populations causales par l'estimation de distributions cachées

28/10/2021 à 14h00

Mme Celine BEJI présente ses travaux en soutenance le 28/10/2021 à 14h00

À l'adresse suivante : Place du Maréchal de Lattre de Tassigny, 75016 Paris, Salle des thèses - D520

En vue de l'obtention du diplôme : Doctorat en Informatique

La soutenance est publique

Titre des travaux

Identification des populations causales par l'estimation de distributions cachées

École doctorale

École doctorale Dauphine SDOSE

Équipe de recherche

UMR 7243 - Laboratoire d’Analyse et de Modélisation de Systèmes d’Aide à la Décision

Section CNU

27 - Informatique

Directeur(s)

M. Jamal ATIF

Membres du jury

Nom Qualité Établissement Rôle
M. Jamal ATIF Professeur des universités UNIVERSITE PARIS-DAUPHINE, PSL Directeur de thèse
Mme Isabelle BLOCH Professeur des universités Sorbonne Université Rapporteure
Mme Céline HUDELOT Professeur des universités Centrale Supelec Rapporteure
M. Florian PYGER Maître de conférences UNIVERSITE PARIS-DAUPHINE Examinateur
M. Raphaël PORCHER Maître de conférences Université de Paris Examinateur

Résumé

En se plaçant dans un cadre contrefactuel (également appelé cadre de Rubin), pour lequel l'inférence causale est considérée comme un problème à données manquantes, cette thèse propose une approche basée sur une estimation de densité. L'objectif est d'inférer l'effet d'un traitement sur un résultat en estimant la distribution de probabilité de quatre populations causales, définies par les résultats observés avec et sans traitement : les répondants qui présentent le résultat attendu uniquement lorsqu'ils sont traités, les condamnés et les survivants qui ne présentent respectivement jamais et toujours le résultat attendu, et les anti-répondants qui présentent l'effet attendu uniquement lorsqu'ils ne sont pas traités. Cette classification permet d'estimer l'effet individuel du traitement et d'établir une politique d'affectation du traitement pour de nouveaux individus. Le problème fondamental est que les deux résultats ne peuvent pas être simultanément observables. Dans cette thèse, deux modèles basés sur des contraintes sont proposés. Les contraintes sont construites sur le résultat observé et le traitement assigné, qui permettent d'exclure deux populations causales et, par conséquent, de forcer leur distribution de probabilité à zéro. Par exemple, si un individu traité présente le résultat attendu, il appartient nécessairement à la population des répondants ou des survivants. Tout d'abord, une approche paramétrique basée sur une adaptation de l'algorithme EM est proposée. Les paramètres des distributions des populations causales sont estimés sous les contraintes définies. L'algorithme est présenté et implémenté sur un mélange de distributions Gaussiennes, puis sur un mélange de distributions Gaussiennes et Multinomiales indépendantes afin d'améliorer les résultats en présence de variables catégorielles. Ensuite, une approche non-paramétrique est introduite. Le modèle utilise un Auto-Encoder amélioré par un a priori causale, matérialisée par un masque introduit dans la couche intermédiaire du réseau. Les caractéristiques sont reconstruites après avoir été réduites à l'espace latent, qui est assimilé à la distribution de probabilité des populations causales. Des expérimentations sont menées sur des données synthétiques et réelles, les limites des approches sont discutées et des modèles alternatifs sont proposés. Enfin, une extension en multi-traitements et la question ouverte de la non-conformité concluent ce travail.

Toutes les soutenances de thèse