Vote par approbation épistémique: applications à l'étiquetage des données par crowdsourcing
14/12/2022 à 10h00
M. Tahar ALLOUCHE présente ses travaux en soutenance le 14/12/2022 à 10h00
À l'adresse suivante : Université Paris Dauphine-PSL Pl. du Maréchal de Lattre de Tassigny 75016 Paris - Salle A701
En vue de l'obtention du diplôme : Doctorat en Informatique
La soutenance est publique
Titre des travaux
Vote par approbation épistémique: applications à l'étiquetage des données par crowdsourcing
École doctorale
École doctorale Dauphine SDOSE
Équipe de recherche
UMR 7243 - Laboratoire d’Analyse et de Modélisation de Systèmes d’Aide à la Décision
Section CNU
27 - Informatique
Directeur(s)
M. Jérôme LANG
Membres du jury
Nom | Qualité | Établissement | Rôle |
---|---|---|---|
M. Jérôme LANG | Directeur de recherche | UNIVERSITÉ PARIS DAUPHINE - PSL | Directeur de thèse |
M. Ioannis CARAGIANNIS | Professor | UNIVERSITÉ D'Aarhus | Rapporteur |
M. Matias NUNEZ | Chargé de recherche | CREST -CENTRE DE RECHERCHE EN ECONOMIE ET STATISTIQUE | Rapporteur |
M. Florian YGER | Maître de conférences | UNIVERSITÉ PARIS DAUPHINE - PSL | Co-encadrant de thèse |
M. Marcus PIVATO | Professeur des universités | CY CERGY PARIS UNIVERSITÉ | Examinateur |
M. Yann CHEVALEYRE | Professeur des universités | UNIVERSITE PARIS DAUPHINE - PSL | Examinateur |
Mme Emilie MORVANT | Maître de conférences | UNIVERSITÉ JEAN MONNET, SAINT-ETIENNE | Examinatrice |
Mme Dorothea BAUMEISTER | Junior Professor | UNIVERSITÉ HEINRICH HEINE DUSSELDORF | Examinatrice |
Résumé
Le choix social épistémique traite du problème de la révélation d'un état caché (vérité objective) parmi un ensemble d'états possibles, compte tenu des votes émis par certains agents, qui peuvent être considérés comme des rapports bruités sur la vérité. La corrélation entre ces rapports et la vérité est modélisée par un modèle de bruit, parfois ajusté par un paramètre reflétant la compétence (expertise, fiabilité) des votants. Bien qu'il ait été démontré que certaines règles anonymes classiques produisent l'estimateur de maximum de vraisemblance de la vérité sous certaines hypothèses, la règle d'agrégation peut parfois attribuer des poids différents aux votants en fonction de leur expertise. Nous nous concentrons sur un type particulier d'entrée, consistant en votes par approbation, où chaque votant sélectionne un sous-ensemble d'alternatives, et nous proposons et testons de nouvelles méthodes pour pondérer de manière optimale les votants dans le but de retrouver une vérité simple (vainqueur unique) ou composite (vainqueurs multiples) via l'estimation du maximum de vraisemblance, avec un intérêt particulier pour les applications au crowdsourcing. Tout d'abord, nous nous concentrons sur le vote par approbation épistémique à un seul gagnant et défendons le principe "size matters". Il stipule que les électeurs les plus fiables ont tendance à sélectionner moins d'alternatives, et que les règles de vote devraient donc accorder plus de poids aux bulletins de vote plus petits. Nous caractérisons une grande famille de distributions de bruit d'approbation de type Mallows basée sur ce principe. De plus, pour le cas spécifique d'un bruit de type Condorcet, nous concevons une méthode simple pour estimer la fiabilité des électeurs en observant simplement la taille de leurs bulletins. Nous testons ces méthodes d'agrégation sur différents ensembles de données d'annotations réelles provenant du crowdsourcing, et nous montrons qu'elles sont plus performantes que le vote d'approbation standard dans les situations de sagesse de la foule à question unique. Deuxièmement, nous traitons le vote par approbation épistémique à plusieurs vainqueurs, où la vérité consiste en un ensemble de gagnants objectifs (sentiments dans un texte, objets dans une image, les trois meilleurs articles d'une conférence...). Dans de tels contextes, il peut y avoir plusieurs interprétations de la taille de la sortie. Une des contributions de cette thèse est de distinguer et de discuter deux interprétations différentes, menant à des solutions différentes. Dans la première interprétation, nous supposons que nous avons une connaissance préalable sur la vérité objective, consistant en une borne inférieure et supérieure sur sa cardinalité. Après avoir posé un modèle de bruit paramétré qui incorpore cette information a priori, nous proposons une procédure itérative qui entrelace l'estimation des paramètres et de la vérité. Nous testons l'algorithme sur un ensemble de données d'annotation que nous avons collecté, et nous montrons que l'incorporation de la connaissance a priori dans le processus d'estimation améliore considérablement sa précision. Dans la deuxième interprétation, nous nous concentrons sur les cas où certaines contraintes de taille exogènes pèsent sur le nombre de gagnants dans la sortie, même si la taille de la vérité peut se situer en dehors de cet intervalle (par exemple, accepter jusqu'à trente étudiants postulant à un programme de master, même s'il peut y avoir plus de trente bons candidats). Alors que l'objectif habituel des règles de vote épistémique est de découvrir la "totalité" de la vérité de base, la décision consiste ici à produire le meilleur sous-ensemble objectif d'alternatives. Nous introduisons deux concepts de solution, que nous testons sur des données synthétiques, et nous prouvons qu'ils sont plus performants qu'une base de référence.