Soutenances de thèse

Existence, calculabilité et certification de classifieurs optimaux sous attaques adversariales.

15/12/2022 à 10h00

M.Raphael ETTEDGUI présente ses travaux en soutenance le 15/12/2022 à 10h00

À l'adresse suivante : Université Paris Dauphine-PSL Place du Maréchal de Lattre de Tassigny 75016 Paris - Salle des thèses - D520

En vue de l'obtention du diplôme : Doctorat en Informatique

La soutenance est publique

Titre des travaux

Existence, calculabilité et certification de classifieurs optimaux sous attaques adversariales.

École doctorale

École doctorale Dauphine SDOSE

Équipe de recherche

UMR 7243 - Laboratoire d’Analyse et de Modélisation de Systèmes d’Aide à la Décision

Section CNU

27 - Informatique

Directeur(s)

MM.Yann CHEVALEYRE et Jamal ATIF

Membres du jury

Nom	Qualité	Établissement	Rôle
M. Yann CHEVALEYRE	Professeur des universités	UNIVERSITE PARIS DAUPHINE - PSL	Directeur de thèse
M. Jamal ATIF	Professeur des universités	UNIVERSITE PARIS DAUPHINE - PSL	Co-directeur de thèse
M. Aurélien BELLET	Chargé de recherche	Inria Paris	Rapporteur
M. Amaury HABRARD	Professeur des universités	Université Jean Monnet - Saint Etienne	Rapporteur
Mme Florence D'ALCHÉ BUC	Professeur des universités	Télécom Paris	Examinatrice
M. Alexandre ALLAUZEN	Professeur des universités	UNIVERSITE PARIS DAUPHINE - PSL	Examinateur

Résumé

Cette thèse porte sur la question des attaques adversariales en machine learning. Ces perturbations, imperceptibles à l’oeil humain, sont conçues pour induire les classifieurs en erreur, et transfèrent à nombre de modèles similaires. Les meilleurs réseaux actuels sont vulnérables à ces attaques, ce qui constitue un obstacle majeur à l’utilisation du ML pour des applications critiques comme les voitures autonomes ou les drones. A l’heure actuelle, aucune équipe de chercheurs n’a identifié de classifieur "optimal", dont les performances seraient garanties contre toutes attaques, et les nouvelles défenses continuent d’être vaincues par de nouvelles attaques. Cela soulève deux questions : Q1: Existe-t-il un classifieur optimal contre toutes les attaques à la fois ? Q2: Si oui, de quel degré d’information a-t-on besoin pour garantir ses performances ? Nous étudions Q1 sous l’angle de la théorie des jeux. Nous montrons qu’il n’existe pas d’équilibre de Nash pur pour la 0/1 loss, et que par conséquent aucun classifieur déterministe ne peut être optimal contre toutes les attaques à la fois, même avec une puissance de calcul infinie. Avec des surrogates convexes, des équilibres purs peuvent exister, mais ne peuvent être stable; autrement dit, ils seraient impossibles à calculer en pratique. Tout cela encourage l’usage de la randomisation. Nous montrons qu’à partir d’un classifieur déterministe, il est possible de créer une mixture qui performe strictement mieux sous toute attaque. Nous présentons un algo- rithme permettant d’obtenir cette mixture, et fournissons des garanties théoriques et des résultats empiriques sur CIFAR10 et 100. Nous montrons ensuite que l’injection de bruit stabilise les équilibres, au prix d’une augementation du risque naturel. Nous étudions également les conditions d’existence d’équilibres de Nash lorsque l’attaquant est randomisé. Nous étudions ensuite Q2 en analysant la certification pour Randomized Smoothing. Nous quantifions l’écart entre les certificats actuels à bruit unique, et le certificat parfait, et montrons que cela explose lorsque la dimension augmente, aux points où la frontière de décision a une forte courbure locale. Cela montre la nécessité d’utiliser davantage d’information pour dépasser les résultats d’impossibilité actuels. Nous introduisons une méthode permettant de collecter de l’information de plusieurs bruits à la fois, indépendamment du smoothing et donc sans perte de précision naturelle. Nous montrons que cela permet d’approximer le certificat parfait avec une précision arbitraire, au prix d’un fort coût en calcul. Nous étudions ensuite comment exploiter les invariances, symmétries et l’information a priori pour réduire ce coût, et présentons un certificat basé sur des bruits à centres aléatoires, pouvant être calculé indépendamment de la dimension du problème. Nous concluons ensuite cette thèse par des questions de recherche ouvertes, ainsi que quelques perspectives sur l’avenir du domaine.

Toutes les soutenances de thèse