Soutenances de thèse

Vote par approbation épistémique: applications à l'étiquetage des données par crowdsourcing

Télécharger le PDF

14/12/2022 à 10h00

M. Tahar ALLOUCHE présente ses travaux en soutenance le 14/12/2022 à 10h00

À l'adresse suivante : Université Paris Dauphine-PSL Pl. du Maréchal de Lattre de Tassigny 75016 Paris - Salle A701

En vue de l'obtention du diplôme : Doctorat en Informatique

La soutenance est publique

Titre des travaux

Vote par approbation épistémique: applications à l'étiquetage des données par crowdsourcing

École doctorale

École doctorale Dauphine SDOSE

Équipe de recherche

UMR 7243 - Laboratoire d’Analyse et de Modélisation de Systèmes d’Aide à la Décision

Section CNU

27 - Informatique

Directeur(s)

M. Jérôme LANG

Membres du jury

Nom	Qualité	Établissement	Rôle
M. Jérôme LANG	Directeur de recherche	UNIVERSITÉ PARIS DAUPHINE - PSL	Directeur de thèse
M. Ioannis CARAGIANNIS	Professor	UNIVERSITÉ D'Aarhus	Rapporteur
M. Matias NUNEZ	Chargé de recherche	CREST -CENTRE DE RECHERCHE EN ECONOMIE ET STATISTIQUE	Rapporteur
M. Florian YGER	Maître de conférences	UNIVERSITÉ PARIS DAUPHINE - PSL	Co-encadrant de thèse
M. Marcus PIVATO	Professeur des universités	CY CERGY PARIS UNIVERSITÉ	Examinateur
M. Yann CHEVALEYRE	Professeur des universités	UNIVERSITE PARIS DAUPHINE - PSL	Examinateur
Mme Emilie MORVANT	Maître de conférences	UNIVERSITÉ JEAN MONNET, SAINT-ETIENNE	Examinatrice
Mme Dorothea BAUMEISTER	Junior Professor	UNIVERSITÉ HEINRICH HEINE DUSSELDORF	Examinatrice

Résumé

Le choix social épistémique traite du problème de la révélation d'un état caché (vérité objective) parmi un ensemble d'états possibles, compte tenu des votes émis par certains agents, qui peuvent être considérés comme des rapports bruités sur la vérité. La corrélation entre ces rapports et la vérité est modélisée par un modèle de bruit, parfois ajusté par un paramètre reflétant la compétence (expertise, fiabilité) des votants. Bien qu'il ait été démontré que certaines règles anonymes classiques produisent l'estimateur de maximum de vraisemblance de la vérité sous certaines hypothèses, la règle d'agrégation peut parfois attribuer des poids différents aux votants en fonction de leur expertise. Nous nous concentrons sur un type particulier d'entrée, consistant en votes par approbation, où chaque votant sélectionne un sous-ensemble d'alternatives, et nous proposons et testons de nouvelles méthodes pour pondérer de manière optimale les votants dans le but de retrouver une vérité simple (vainqueur unique) ou composite (vainqueurs multiples) via l'estimation du maximum de vraisemblance, avec un intérêt particulier pour les applications au crowdsourcing. Tout d'abord, nous nous concentrons sur le vote par approbation épistémique à un seul gagnant et défendons le principe "size matters". Il stipule que les électeurs les plus fiables ont tendance à sélectionner moins d'alternatives, et que les règles de vote devraient donc accorder plus de poids aux bulletins de vote plus petits. Nous caractérisons une grande famille de distributions de bruit d'approbation de type Mallows basée sur ce principe. De plus, pour le cas spécifique d'un bruit de type Condorcet, nous concevons une méthode simple pour estimer la fiabilité des électeurs en observant simplement la taille de leurs bulletins. Nous testons ces méthodes d'agrégation sur différents ensembles de données d'annotations réelles provenant du crowdsourcing, et nous montrons qu'elles sont plus performantes que le vote d'approbation standard dans les situations de sagesse de la foule à question unique. Deuxièmement, nous traitons le vote par approbation épistémique à plusieurs vainqueurs, où la vérité consiste en un ensemble de gagnants objectifs (sentiments dans un texte, objets dans une image, les trois meilleurs articles d'une conférence...). Dans de tels contextes, il peut y avoir plusieurs interprétations de la taille de la sortie. Une des contributions de cette thèse est de distinguer et de discuter deux interprétations différentes, menant à des solutions différentes. Dans la première interprétation, nous supposons que nous avons une connaissance préalable sur la vérité objective, consistant en une borne inférieure et supérieure sur sa cardinalité. Après avoir posé un modèle de bruit paramétré qui incorpore cette information a priori, nous proposons une procédure itérative qui entrelace l'estimation des paramètres et de la vérité. Nous testons l'algorithme sur un ensemble de données d'annotation que nous avons collecté, et nous montrons que l'incorporation de la connaissance a priori dans le processus d'estimation améliore considérablement sa précision. Dans la deuxième interprétation, nous nous concentrons sur les cas où certaines contraintes de taille exogènes pèsent sur le nombre de gagnants dans la sortie, même si la taille de la vérité peut se situer en dehors de cet intervalle (par exemple, accepter jusqu'à trente étudiants postulant à un programme de master, même s'il peut y avoir plus de trente bons candidats). Alors que l'objectif habituel des règles de vote épistémique est de découvrir la "totalité" de la vérité de base, la décision consiste ici à produire le meilleur sous-ensemble objectif d'alternatives. Nous introduisons deux concepts de solution, que nous testons sur des données synthétiques, et nous prouvons qu'ils sont plus performants qu'une base de référence.

Toutes les soutenances de thèse