Analyse de programmes binaires et d'obfuscation par des représentations de graphes et apprentissage automatique
27/11/2025 à 10h00
Mme Roxane COHEN présente ses travaux en soutenance le 27/11/2025 à 10h00
À l'adresse suivante : Université Paris-Dauphine - PSL, Pl. du Maréchal de Lattre de Tassigny, 75016 Paris D520
En vue de l'obtention du diplôme : Doctorat en Informatique
La soutenance est publique
Titre des travaux
Analyse de programmes binaires et d'obfuscation par des représentations de graphes et apprentissage automatique
École doctorale
École doctorale Dauphine SDOSE
Équipe de recherche
UMR 7243 - Laboratoire d'Analyse et de Modélisation de Systèmes d'Aide à la Décision
Section CNU
9 - Sciences et technologies de l'information et de la communication
Directeur(s)
Fabrice ROSSI
Membres du jury
| Nom | Qualité | Établissement | Rôle |
|---|---|---|---|
| M. Fabrice ROSSI | Professeur | Université Paris-Dauphine - PSL | Directeur de these |
| Mme Valérie VIET TRIEM TONG | Professeur | Centrale Supélec | Rapporteur |
| M. Sébastien ADAM | Professeur | Université de Rouen | Rapporteur |
| M. Robin DAVID | Ingénieur-chercheur | Quarkslab | Examinateur |
| M. Florian YGER | Maître de conférences | INSA Rouen Normandy | Co-encadrant de these |
| M. Sébastien BARDIN | Ingénieur-chercheur (Fellow du CEA) | Commissariat à l'Energie Atomique | Examinateur |
| M. Yann CHEVALEYRE | Professeur | Université Paris-Dauphine - PSL | Examinateur |
| Mme Barbara PILASTRE | Ingénieur-chercheur | Direction Générale de l'Armement | Examinateur |
Résumé
La protection du contenu sensible d'un programme constitue un enjeu majeur, tant dans des contextes légitimes que malveillants, l'obfuscation étant l'une des techniques les plus couramment employées à cette fin. En transformant le code binaire de programmes compilés, l'obfuscation complique et retarde les opérations de rétro-ingénierie, contraignant ainsi les attaquants à suivre une série d'étapes analytiques spécifiques pour contourner ces protections. Cette thèse présente plusieurs contributions, toutes fondées sur des méthodes avancées d'apprentissage de représentations de graphes, et couvrant différentes étapes du processus d'analyse d'obfuscation. Dans un premier temps, nous abordons la détection et la caractérisation de l'obfuscation sous forme de problèmes de classification binaire et multi-classes, en comparant divers formats de graphes, des modèles d'apprentissage de référence, ainsi que des ensembles de caractéristiques, tout en évaluant l'impact de la distribution des données et des optimisations du compilateur. Nos résultats montrent que les modèles avancés de réseaux de neurones de graphes surpassent les approches de référence lorsqu'ils sont alimentés par des caractéristiques capturant finement la sémantique du code binaire, bien que leurs performances demeurent sensibles au niveau d'optimisation et aux stratégies de partitionnement des données. Dans un second temps, nous menons une étude approfondie du diffing binaire et des techniques de similarité, en partant d'un contexte standard et
non obfusqué, au travers d'une analyse d'ablation de QBinDiff et d'une comparaison approfondie des techniques existantes, jusqu'à des scénarios obfusqués, dans lesquels un attaquant cherche à extraire des informations du programme protégé, sans procéder à une désobfuscation complète. Les résultats mettent en évidence les avantages de QBinDiff qui permet un diffing plus fin et montrent que la plupart des obfuscations intra-procédurales et de données offrent une protection limitée, contrairement aux obfuscations inter-procédurales, plus robustes mais rarement mises en œuvre dans les outils open source. Enfin, nous explorons la désobfuscation directe, en combinant l'apprentissage par renforcement et l'apprentissage de représentations de graphes. Nous modélisons cette tâche comme un problème de compression symbolique, où une fonction obfusquée est représentée dans un format de graphe innovant, combinant les flôts de contrôle et de data, puis simplifiée de manière itérative via des opérations d'édition de graphe, guidées par un agent basé surdes réseaux de neurones de graphes. Les premiers résultats obtenus sur les expressions mixtes arithmético-booléennes montrent un succès partiel mais prometteur, ouvrant des perspectives intéressantes pour de futurs travaux.